Lingüística de Corpus

Se ocupa de recopilar textos escritos o transcripciones de la produccion oral en forma de corpus

Un corpus es un conjunto de fragmentos de textos orales o escritos que son utilizados de forma científica para analizar un lenguaje.

Caracteristicas de un corpus

muestreo y representatividad

Tamaño

Tratamiento del texto

Formato

Disponibilidad y viabilidad

Reutilización y replicabilidad

Tipos de corpus

Corpus General: proporciona infórmacion completa sobre una lengua

Corpus monitor: crece continuamente

Corpus especializado: textos representativos

Corpus monolingüe /Corpus multilingüe

Corpus paralelos / Corpus comparable

Corpus de aprendientes corpus sincronico / diacronico

Criterios para la selección de textos

Criterios externos tienen en cuenta la situacion de comunicación

Criterios internos se definen de forma linguistica

Equilibrio

Muestreo

Función

Anotación de corpus

La anotación es informacion linguistica de tipo interpretativo para describir los usos del lenguaje

Markup : información objetiva y verificable

Aspectos extratextuales

Identificación y clasificación del texto para su recuperación

Codificación intertextual

Aspectos referentes a la configuración formal del texto

Corpus NO anotado

Corpus anotado

Informaciónlingüísticarelevante-explícita

Texto sencillo y plano
Información lingüistica - implícita

Antes de la anotación

Procesos automáticos llevados a cabo por las herramientas de análisis de corpus

Segmentación

Es la separación de la raíz (lexema) de los morfemas de flexión

Lematización

Proceso de asignación de lema a sus formas flexionadas en el corpus

Tokenización

Token: un uso de una palabra en su forma concreta en un corpus separada por un espacio en blanco

Tipos de anotación

Part of speech

Anotación semántica

Anotación sintáctica

Anotación discursiva

Anotación pragmática

Anotación fonética/prosódica

anotación fonética – pronunciación de una palabra en un corpus oral

anotación prosódica - la acentuación, la entonación y las pausas en un corpus oral

información sobre los actos del habla en la interacción oral

coreferencia en un texto (relaciones anafóricas)

estructura sintáctica de una oración: sintagmas y oraciones subordinadas

categoría semántica de las palabras

incorporación de etiquetas

Lingüística de corpus: áreas de aplicación

Enseñanza de lenguas

Desarrollo de tecnologías del lenguaje

Traducción y estudios de traducción

Investigación sociolingüística

Psicolingüística y adquisición del lenguaje

Análisis del discurso

Análisis del uso del lenguaje

Lingüística forense:

Lexicografía y creación de diccionarios

Estudio de la pragmática

Análisis de lenguajes especializados

Útil para el trabajo en clase

Facilidad de acceso a los corpus en línea

El aprendiz como un investigador:

Uso de los corpus con textos auténticos sin ideas preconcebidas

Ideas clave

Escaso uso de los corpus en una clase de lengua extranjera:

Falta de interés por parte de los profesores

Falta de destrezas y conocimientos por parte de los profesores para utilizar los corpus en clase

Uso de corpus

Crear ejercicios

Demostrar la variación en la gramática

Mostrar cómo las estructuras sintácticas pueden indicar diferencias en el significado

posibles problemas

Estudiantes – reticencia al uso del método inductivo

Actividades basadas en los corpus - inadecuadas para algunos alumnos

Reconocer sinónimos y casi-sinónimos, así como las colocaciones

Contestar las preguntas de los estudiantes sobre los fenómenos lingüísticos no mencionados en libros de texto

Floating topic