Linguistica de corpus

r

VI. Conclusion

¿Qué es la linguistica de corpus?

rama de la lingüística que se centra en el estudio de las lenguas naturales a través del análisis de corpus lingüísticos

Corpus linguistico

colección sistemática y estructurada de textos escritos o hablados que se utiliza como base de datos para el estudio del lenguaje.

pueden ser

libros

articulos

conversaciones grabadas

transcripciones de discursos

paginas web

entre otros

¿En qué se basa?

en la premisa de que el lenguaje puede entenderse mejor examinando grandes cantidades de datos reales en lugar de depender únicamente de intuiciones lingüísticas o ejemplos aislados

¿Qué se puede identificar?

patrones lingüísticos

frecuencia de uso de palabras y estructuras

colocaciones (palabras que tienden a aparecer juntas con frecuencia)

variacion en el uso del lenguaje en diferentes contextos y epocas

Tipos de Corpus

Según la modalidad de la lengua:

Según el número de lenguas:

Según los límites establecidos:

Según la especificidad de los textos:

En función del período temporal que abarcan los textos:

Según el tamaño de los textos:

Corpus de referencia

Formados por fragmentos de textos

Habituales en los corpus que quieren proporcionar una información lo más completa posible sobre una lengua

Se incluyen textos de diferentes
géneros, temáticas, etc

Corpus textuales

Incluyen textos enteros, sin fragmentar.

Más habituales cuando el objeto del corpus es un sublenguaje o lenguaje de especialidad.

Según el proceso al que se someta el corpus:

Corpus simples, en bruto, no
anotados o no codificados

Textos guardados sin formato alguno y sin añadir ningún tipo de información adicional, como pueden ser códigos o anotaciones.

Son muy limitados en cuanto a las posibilidades de extraer información que ofrecen.

Corpus codificados o anotados

Formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones:

La estructura de los textos: etiquetas especiales para indicar el autor, el título, los capítulos, etc. (‘codificación’).

Aspectos lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (‘anotación’)

Irasema Berenice Cázarss Villanueva Matricula 1628781

Referencia: Villayandre, M. (2008). Lingüística con corpus. E.H. Filología, (30), 329-249.