por Berenice Cazares hace 1 año
55
Ver más
VI. Conclusion
Formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones:
Aspectos lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (‘anotación’)
La estructura de los textos: etiquetas especiales para indicar el autor, el título, los capítulos, etc. (‘codificación’).
Son muy limitados en cuanto a las posibilidades de extraer información que ofrecen.
Textos guardados sin formato alguno y sin añadir ningún tipo de información adicional, como pueden ser códigos o anotaciones.
Más habituales cuando el objeto del corpus es un sublenguaje o lenguaje de especialidad.
Incluyen textos enteros, sin fragmentar.
Habituales en los corpus que quieren proporcionar una información lo más completa posible sobre una lengua
Se incluyen textos de diferentes géneros, temáticas, etc
Formados por fragmentos de textos
Permite el estudio de una o más variedades lingüísticas en un momento determinado del tiempo, pero sin prestar atención a su evolución
Incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo.
Recogen textos que puedan aportar datos para la descripción de un tipo particular de lengua.
Pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible
Se mantienen en constante crecimiento, normalmente mediante la introducción periódica de nuevas cantidades de textos según unas proporciones previamente definidas.
Constan de un número finito de palabras, que se establece de forma previa a la recopilación del corpus. Una vez alcanzado ese número, el corpus se da por finalizado
Formados por textos en dos o más lenguas sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección
Se recopilan con el objetivo de dar cuenta de una lengua o variedad lingüística en general
Compuestos por textos en una sola lengua
Recogen muestras de lengua hablada
grabaciones acompañadas de transcripciones ortográficas y/o fonéticas
transcripciones ortográficas de grabaciones
Favorecen la lengua escrita
obtención menos costosa que la de la lengua oral que, además, siempre requiere un proceso posterior de transcripción de las grabaciones
Combinan ambas modalidades
Formados únicamente por muestras procedentes de la modalidad escrita de la lengua
entre otros
paginas web
transcripciones de discursos
conversaciones grabadas
articulos
libros