rama de la lingüística que se centra en el estudio de las lenguas naturales a través del análisis de corpus lingüísticos
Corpus linguistico
colección sistemática y estructurada de textos escritos o hablados que se utiliza como base de datos para el estudio del lenguaje.
pueden ser
libros
articulos
conversaciones grabadas
transcripciones de discursos
paginas web
entre otros
¿En qué se basa?
en la premisa de que el lenguaje puede entenderse mejor examinando grandes cantidades de datos reales en lugar de depender únicamente de intuiciones lingüísticas o ejemplos aislados
¿Qué se puede identificar?
patrones lingüísticos
frecuencia de uso de palabras y estructuras
colocaciones (palabras que tienden a aparecer juntas con frecuencia)
variacion en el uso del lenguaje en diferentes contextos y epocas
Tipos de Corpus
Según la modalidad de la lengua:
10
Según el número de lenguas:
5
Según los límites establecidos:
4
Según la especificidad de los textos:
4
En función del período temporal que abarcan los textos:
4
Según el tamaño de los textos:
Corpus de referencia
Formados por fragmentos de textos
Habituales en los corpus que quieren proporcionar una información lo más completa posible sobre una lengua
Se incluyen textos de diferentes géneros, temáticas, etc
Corpus textuales
Incluyen textos enteros, sin fragmentar.
Más habituales cuando el objeto del corpus es un sublenguaje o lenguaje de especialidad.
Según el proceso al que se someta el corpus:
Corpus simples, en bruto, no anotados o no codificados
Textos guardados sin formato alguno y sin añadir ningún tipo de información adicional, como pueden ser códigos o anotaciones.
Son muy limitados en cuanto a las posibilidades de extraer información que ofrecen.
Corpus codificados o anotados
Formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones:
La estructura de los textos: etiquetas especiales para indicar el autor, el título, los capítulos, etc. (‘codificación’).
Aspectos lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (‘anotación’)
Irasema Berenice Cázarss Villanueva Matricula 1628781
Referencia: Villayandre, M. (2008). Lingüística con corpus. E.H. Filología, (30), 329-249.