PROCESAMIENTO DEL LENGUAJE NATURAL

Curvas que saltan en el procesamiento del lenguaje natural. Una reseña de la investigación del procesamiento del lenguaje natural.

Este artículo toma prestado el paradigma de las curvas que saltan del campo de los negocios y reinterpreta la evolución de PLN en la intersección de curvas superpuestas: las sintácticas, las semánticas y las pragmáticas.

Curvas sintácticas.

Procesamiento del lenguaje natural centrado en la sintaxis se puede agrupar en 3 categorías:

Localización de palabras clave

El texto se clasifica en categorías basadas en la presencia de palabras bastante inequívocas, es decir, que no son apenas ambiguas.

Afinidad léxica

En este método se asigna a palabras arbitrarias una afinidad probabilística para una categoría en particular.

Métodos estadísticos

A través de la incorporación de un corpus de textos anotados en una máquina cuyo algoritmo aprende, no solo interpreta palabras clave, sino la valencia de otras palabras clave arbitrarias, puntuación, y frecuencia de co-ocurrencia de palabras.

Curvas semánticas.

El procesamiento del lenguaje natural basado en la semántica se centra en el significado intrínseco asociado con el lenguaje natural.

PLN endógeno.

Supone el uso de técnicas de aprendizaje de máquinas para desarrollar un análisis semántico de un corpus construyendo estructuras que aproximan conceptos de un gran volumen de documentos.

PLN taxonómico.

Incluye iniciativas que intenta construir taxonomías universales para intentar captar el lenguaje natural.

PLN noético.

Intenta compensar la carencia de adaptación al campo semántico y de inferencia semántica de los algoritmos tradicionales.

Curvas pragmáticas.

El PLN basado en la pragmática intenta comprender la generación y el procesmiento de la narrativa.

Uno de los más representativos es Patrick Winston, que realizó una obra sobre modelos computacionales de narrativa basados en 5 hipótesis.

Lingüística y tecnologías del lenguaje.

Las tecnologías del lenguaje.

Son las que se integran en aplicaciones para permitir el tratamiento de textos escritos o el procesamiento del habla.

TECNOLOGÍAS DEL HABLA.

Síntesis del habla: generación de mensajes orales a partir de un texto escrito.

Reconocimiento del habla: proceso inverso al de síntesis. Se trata de pasar un texto oral a su representación por escrito.

Sistemas de diálogo: usados para facilitar la interacción entre un ser humano y un sistema informático.

TECNOLOGÍAS DEL TEXTO

Herramientas para el tratamiento del texto.

Herramientas de ayuda a la escritura: los programas de corrección ortográfica y gramatical incorporados a la mayoría de procesadores de texto.

Herramientas de análisis sintáctico.

Lematizador: analiza la ráiz de las palabras.

Analizador morfológico: descompone la palabra en morfemas y determina la categoría gramatical de cada uno.

Analizador sintáctico: analiza la estructura de los constituyentes de una oración y establece la categoría gramatical de cada uno.

PROCESAMIENTO DEL LENGUAJE NATURAL.

Generación del lenguaje: persigue la creación automática de textos escritos.

Comprensión del lenguaje: comprensión de manera restringida, a partir de un texto escrito crear una representación del contenido. Se está investigando sobre la comprensión del lenguaje oral.

Traducción automática. Hay numerosas aplicaciones. Systran, y otras profesionales como TAO y CAT.

Recuperación y extracción de información.

La recuperación de información consiste seleccionar de una serie de documentos los que contienen la información que el que realiza la búsqueda necesita.

La extracción de información es más compleja ya que su finalidad es obtener datos concretos de diferentes documentos y organizarlos.

RECURSOS LINGÜÍSTICOS.

Recursos esenciales para el desarrollo de aplicaciones propias de las tecnologías del lenguaje.

Corpus: compilación para la descripción de un idioma. Hay corpus orales y escritos.

Recursos léxicos: léxicos computacionales, monolingües o multilingües, y redes lexico-semánticas.

Gramáticas. La gramática computacional se puede entender como una descripción formalizada del conocimiento lingüístico.

NUEVAS PROFESIONES Y FORMACIÓN

Los lingüistas tienen un papel muy importante en las tecnologías del lenguaje en colaboración con informáticos. En cuanto a la formación hay algunas universidades que ofrecen asignaturas tales como la lingüística computacional y hay algunos masters que abren más posibilidades de empleo a los estudiantes, pero se deberían aumentar las ofertas puesto que es una materia en auge.

En defensa del procesamiento del lenguaje natural fundamentado en la lingüística teórica

La lingüística teórica y el PLN

Años 40 y 50: La investigación comenzó en los años 40 en la traducción automática.

Años 60 y 70: En los 60 tuvo lugar el nacimiento de la inteligencia Artificial y la Gramática Generativo-Transformacional. Sin embargo en los 70 la influencia del paradigma lingüístico dominante de los años 60 disminuyó notablemente, ya que se demostró que la Gramática Generativo-Transformacional era inadecuada para el Pln ya que no prestaba atención alguna al tratamiento semántico. Lainteligencia Artificial de los años 70 se orientó principalmente hacia el desarrollo de sistemas de comprensión del lenguaje natural.

Años 80 y 90: Los 80 vieron el auge de los modelos probabilísticos, principalmente en las tecnologías del habla, el etiquetado gramatical, el análisis sintáctico y la semántica. En la década de los 90 tuvo lugar un fuerte resurgimiento de las tendencias empiristas, no sólo con respecto al análisis de datos lingüísticos sino principalmente en la aplicación de métodos estadísticos al Pln. El cambio a métodos probabilísticos se debió principalmente a tres causas:
1. los corpus, 2. los avances en hardware, y 3.la llegada de internet.

El PLN en el siglo XXI.

A partir de los 90 los enfoques estadísticos han dominado las investigaciones en Pln. Esto ha llevado a que las investigaciones actuales en ingeniería lingüística no se fundamenten en la lingüística, sino en la estadística y la teoría de las probabilidades.

Razones por las cuales la ingeniería lingüística parece no necesitar a la lingüística teórica:

Los modelos lingüísticos se centran en el estudio de la competencia lingüística, mientras que los ingenieros lingüísticos tratan los fenómenos de la actuación. Y los modelos lingüísticos no pueden modelar todo el conocimiento lingüístico, de ahí que cubran un número reducido de fenómenos.

Contraargumentos:

No todas las teorías gramaticales centran su interés en la competencia lingüística y la ausencia de una determinada palabra en el lexicón o de una determinada construcción gramatical en la gramática, puede seguir permitiendo un procesamiento adecuado.

Otra razón es que no todas las teorías lingüísticas facilitan su implementación computacional, debido a la falta de formalización que caracteriza a muchos estudios lingüísticos.

Otra razón es que las empresas quieren resultados prácticos inmediatos y la lingüísitica teórica requiere tiempo.

El papel del lingüista en el procesamiento del lenguaje natural

La integración de un lingüista y un informático en el ámbito de PLN no significa que ambos se hagan expertos en la otra disciplina sino que se trata de que tengan nociones básicas que les permitan desarrollar las aplicaciones necesarias colaborativamente. Sin embargo hay varias posibilidades de integración del lingüista y no en todas ellas este tiene un papel relevante.

Integración periférica del lingüista: solo se ocupa de revisar y proveer datos.

Integración plena del lingüista: para lo que el lingüista debe adquirir conocimientos de informática y recibir formación específica en métodos estadísticos usados en PLN. Y de la misma manera,los informáticos que participen en proyectos del Pln deben poseer una sólida formación en lingüística descriptiva.

FunGramKB

Es una base de conocimiento léxico-conceptual multipropósito diseñada principalmente para su uso en sistemas del Pln, y más concretamente, para aplicaciones que requieran la comprensión del lenguaje.

Ha sido diseñada con el fin de ser potencialmente reutilizada en diversas tareas del Pln (p.ej. recuperación y
extracción de información, traducción automática, sistemas basados en el diálogo, etc) y con diversas lenguas. El propósito de FunGramKB es contribuir a la implementación de sistemas computacionales que simulen el razonamiento humano.

Esta base de conocimiento propicia la construcción de sistemas del Pln fundamentados tanto en la ciencia cognitiva como en la lingüística teórica.

Comprende tres niveles principales de conocimiento: Léxico, gramatical y conceptual.

FunGramKB y la ciencia cognitiva

El modelo de esquema originado en la psicología cognitiva, e implementado posteriormente en inteligencia artificial, es fundamental para la representación del conocimiento conceptual en FunGramKB. A su vez, la conceptualización está en consonancia con la teoría de lakoff (1987) sobre los modelos cognitivos idealizados (mci) proposicionales.

FunGramKB y la lingüística teórica

Uno de los objetivos de FunGramKB consiste en que el Pln vuelva a beneficiarse de las investigaciones en lingüística teórica, más concretamente, de la teoría funcional de la Gramática del Papel y la Referencia (RRG) y el modelo léxico construccional (mlc).

Como conclusión, FunGraKB presenta una nítida separación entre los niveles lingüístico y cognitivo,y permite que conecten la lingüística y la inteligencia artificial a través de la estructura lógica conceptual y el esquema conceptual en coRel. Gracias a este nuevo respaldo a la lingüística teórica, los lingüistas pueden seguir desempeñando el papel incuestionable que les corresponde en un proyecto del Pln.