Kategorier: Alla - datos - textos - corpus - análisis

av Berenice Cazares för 1 år sedan

66

Linguistica de corpus

La lingüística de corpus se dedica a estudiar las lenguas naturales mediante el análisis de grandes colecciones de textos, ya sean escritos o hablados. Estas colecciones, conocidas como corpus lingüísticos, pueden incluir libros, transcripciones de discursos, artículos y páginas web, entre otros.

Linguistica de corpus

Referencia: Villayandre, M. (2008). Lingüística con corpus. E.H. Filología, (30), 329-249.

Irasema Berenice Cázarss Villanueva Matricula 1628781

Linguistica de corpus

VI. Conclusion

Tipos de Corpus

Según el proceso al que se someta el corpus:
Corpus codificados o anotados

Formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones:

Aspectos lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (‘anotación’)

La estructura de los textos: etiquetas especiales para indicar el autor, el título, los capítulos, etc. (‘codificación’).

Corpus simples, en bruto, no anotados o no codificados

Son muy limitados en cuanto a las posibilidades de extraer información que ofrecen.

Textos guardados sin formato alguno y sin añadir ningún tipo de información adicional, como pueden ser códigos o anotaciones.

Según el tamaño de los textos:
Corpus textuales

Más habituales cuando el objeto del corpus es un sublenguaje o lenguaje de especialidad.

Incluyen textos enteros, sin fragmentar.

Corpus de referencia

Habituales en los corpus que quieren proporcionar una información lo más completa posible sobre una lengua

Se incluyen textos de diferentes géneros, temáticas, etc

Formados por fragmentos de textos

En función del período temporal que abarcan los textos:
Corpus sincronicos

Permite el estudio de una o más variedades lingüísticas en un momento determinado del tiempo, pero sin prestar atención a su evolución

Corpus diacronicos o historicos

Incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo.

Según la especificidad de los textos:
Corpus especializados

Recogen textos que puedan aportar datos para la descripción de un tipo particular de lengua.

Corpus generales

Pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible

Según los límites establecidos:
Corpus abiertos o monitor

Se mantienen en constante crecimiento, normalmente mediante la introducción periódica de nuevas cantidades de textos según unas proporciones previamente definidas.

Corpus cerrados

Constan de un número finito de palabras, que se establece de forma previa a la recopilación del corpus. Una vez alcanzado ese número, el corpus se da por finalizado

Según el número de lenguas:
Corpus Bilingües o multilingües

Formados por textos en dos o más lenguas sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección

Corpus Monolingües

Se recopilan con el objetivo de dar cuenta de una lengua o variedad lingüística en general

Compuestos por textos en una sola lengua

Según la modalidad de la lengua:
Corpus orales

Recogen muestras de lengua hablada

grabaciones acompañadas de transcripciones ortográficas y/o fonéticas

transcripciones ortográficas de grabaciones

Corpus mixtos

Favorecen la lengua escrita

obtención menos costosa que la de la lengua oral que, además, siempre requiere un proceso posterior de transcripción de las grabaciones

Combinan ambas modalidades

Corpus escritos

Formados únicamente por muestras procedentes de la modalidad escrita de la lengua

¿Qué se puede identificar?

variacion en el uso del lenguaje en diferentes contextos y epocas
colocaciones (palabras que tienden a aparecer juntas con frecuencia)
frecuencia de uso de palabras y estructuras
patrones lingüísticos

¿En qué se basa?

en la premisa de que el lenguaje puede entenderse mejor examinando grandes cantidades de datos reales en lugar de depender únicamente de intuiciones lingüísticas o ejemplos aislados

Corpus linguistico

colección sistemática y estructurada de textos escritos o hablados que se utiliza como base de datos para el estudio del lenguaje.
pueden ser

entre otros

paginas web

transcripciones de discursos

conversaciones grabadas

articulos

libros

¿Qué es la linguistica de corpus?

rama de la lingüística que se centra en el estudio de las lenguas naturales a través del análisis de corpus lingüísticos