作者:JOSEFA TOMAS RUIZ 5 年以前
1088
更多类似内容
Como conclusión, FunGraKB presenta una nítida separación entre los niveles lingüístico y cognitivo,y permite que conecten la lingüística y la inteligencia artificial a través de la estructura lógica conceptual y el esquema conceptual en coRel. Gracias a este nuevo respaldo a la lingüística teórica, los lingüistas pueden seguir desempeñando el papel incuestionable que les corresponde en un proyecto del Pln.
FunGramKB y la lingüística teórica
Uno de los objetivos de FunGramKB consiste en que el Pln vuelva a beneficiarse de las investigaciones en lingüística teórica, más concretamente, de la teoría funcional de la Gramática del Papel y la Referencia (RRG) y el modelo léxico construccional (mlc).
FunGramKB y la ciencia cognitiva
El modelo de esquema originado en la psicología cognitiva, e implementado posteriormente en inteligencia artificial, es fundamental para la representación del conocimiento conceptual en FunGramKB. A su vez, la conceptualización está en consonancia con la teoría de lakoff (1987) sobre los modelos cognitivos idealizados (mci) proposicionales.
Comprende tres niveles principales de conocimiento: Léxico, gramatical y conceptual.
Esta base de conocimiento propicia la construcción de sistemas del Pln fundamentados tanto en la ciencia cognitiva como en la lingüística teórica.
Ha sido diseñada con el fin de ser potencialmente reutilizada en diversas tareas del Pln (p.ej. recuperación y extracción de información, traducción automática, sistemas basados en el diálogo, etc) y con diversas lenguas. El propósito de FunGramKB es contribuir a la implementación de sistemas computacionales que simulen el razonamiento humano.
Es una base de conocimiento léxico-conceptual multipropósito diseñada principalmente para su uso en sistemas del Pln, y más concretamente, para aplicaciones que requieran la comprensión del lenguaje.
La integración de un lingüista y un informático en el ámbito de PLN no significa que ambos se hagan expertos en la otra disciplina sino que se trata de que tengan nociones básicas que les permitan desarrollar las aplicaciones necesarias colaborativamente. Sin embargo hay varias posibilidades de integración del lingüista y no en todas ellas este tiene un papel relevante.
Integración plena del lingüista: para lo que el lingüista debe adquirir conocimientos de informática y recibir formación específica en métodos estadísticos usados en PLN. Y de la misma manera,los informáticos que participen en proyectos del Pln deben poseer una sólida formación en lingüística descriptiva.
Integración periférica del lingüista: solo se ocupa de revisar y proveer datos.
Razones por las cuales la ingeniería lingüística parece no necesitar a la lingüística teórica:
Otra razón es que las empresas quieren resultados prácticos inmediatos y la lingüísitica teórica requiere tiempo.
Otra razón es que no todas las teorías lingüísticas facilitan su implementación computacional, debido a la falta de formalización que caracteriza a muchos estudios lingüísticos.
Contraargumentos:
No todas las teorías gramaticales centran su interés en la competencia lingüística y la ausencia de una determinada palabra en el lexicón o de una determinada construcción gramatical en la gramática, puede seguir permitiendo un procesamiento adecuado.
Los modelos lingüísticos se centran en el estudio de la competencia lingüística, mientras que los ingenieros lingüísticos tratan los fenómenos de la actuación. Y los modelos lingüísticos no pueden modelar todo el conocimiento lingüístico, de ahí que cubran un número reducido de fenómenos.
A partir de los 90 los enfoques estadísticos han dominado las investigaciones en Pln. Esto ha llevado a que las investigaciones actuales en ingeniería lingüística no se fundamenten en la lingüística, sino en la estadística y la teoría de las probabilidades.
NUEVAS PROFESIONES Y FORMACIÓN
Los lingüistas tienen un papel muy importante en las tecnologías del lenguaje en colaboración con informáticos. En cuanto a la formación hay algunas universidades que ofrecen asignaturas tales como la lingüística computacional y hay algunos masters que abren más posibilidades de empleo a los estudiantes, pero se deberían aumentar las ofertas puesto que es una materia en auge.
RECURSOS LINGÜÍSTICOS.
Recursos esenciales para el desarrollo de aplicaciones propias de las tecnologías del lenguaje.
Gramáticas. La gramática computacional se puede entender como una descripción formalizada del conocimiento lingüístico.
Recursos léxicos: léxicos computacionales, monolingües o multilingües, y redes lexico-semánticas.
Corpus: compilación para la descripción de un idioma. Hay corpus orales y escritos.
PROCESAMIENTO DEL LENGUAJE NATURAL.
Recuperación y extracción de información.
La extracción de información es más compleja ya que su finalidad es obtener datos concretos de diferentes documentos y organizarlos.
La recuperación de información consiste seleccionar de una serie de documentos los que contienen la información que el que realiza la búsqueda necesita.
Traducción automática. Hay numerosas aplicaciones. Systran, y otras profesionales como TAO y CAT.
Comprensión del lenguaje: comprensión de manera restringida, a partir de un texto escrito crear una representación del contenido. Se está investigando sobre la comprensión del lenguaje oral.
Generación del lenguaje: persigue la creación automática de textos escritos.
TECNOLOGÍAS DEL TEXTO
Herramientas para el tratamiento del texto.
Herramientas de análisis sintáctico.
Analizador sintáctico: analiza la estructura de los constituyentes de una oración y establece la categoría gramatical de cada uno.
Analizador morfológico: descompone la palabra en morfemas y determina la categoría gramatical de cada uno.
Lematizador: analiza la ráiz de las palabras.
Herramientas de ayuda a la escritura: los programas de corrección ortográfica y gramatical incorporados a la mayoría de procesadores de texto.
TECNOLOGÍAS DEL HABLA.
Sistemas de diálogo: usados para facilitar la interacción entre un ser humano y un sistema informático.
Reconocimiento del habla: proceso inverso al de síntesis. Se trata de pasar un texto oral a su representación por escrito.
Síntesis del habla: generación de mensajes orales a partir de un texto escrito.
El PLN basado en la pragmática intenta comprender la generación y el procesmiento de la narrativa.
Uno de los más representativos es Patrick Winston, que realizó una obra sobre modelos computacionales de narrativa basados en 5 hipótesis.
El procesamiento del lenguaje natural basado en la semántica se centra en el significado intrínseco asociado con el lenguaje natural.
PLN noético.
Intenta compensar la carencia de adaptación al campo semántico y de inferencia semántica de los algoritmos tradicionales.
PLN taxonómico.
Incluye iniciativas que intenta construir taxonomías universales para intentar captar el lenguaje natural.
PLN endógeno.
Supone el uso de técnicas de aprendizaje de máquinas para desarrollar un análisis semántico de un corpus construyendo estructuras que aproximan conceptos de un gran volumen de documentos.
Procesamiento del lenguaje natural centrado en la sintaxis se puede agrupar en 3 categorías:
Métodos estadísticos
A través de la incorporación de un corpus de textos anotados en una máquina cuyo algoritmo aprende, no solo interpreta palabras clave, sino la valencia de otras palabras clave arbitrarias, puntuación, y frecuencia de co-ocurrencia de palabras.
Afinidad léxica
En este método se asigna a palabras arbitrarias una afinidad probabilística para una categoría en particular.
Localización de palabras clave
El texto se clasifica en categorías basadas en la presencia de palabras bastante inequívocas, es decir, que no son apenas ambiguas.