Lingüística de Corpus
Se ocupa de recopilar textos escritos o transcripciones de la produccion oral en forma de corpus
Un corpus es un conjunto de fragmentos de textos orales o escritos que son utilizados de forma científica para analizar un lenguaje.
Caracteristicas de un corpus
muestreo y representatividad
Tamaño
Tratamiento del texto
Formato
Disponibilidad y viabilidad
Reutilización y replicabilidad
Tipos de corpus
Corpus General: proporciona infórmacion completa sobre una lengua
Corpus monitor: crece continuamente
Corpus especializado: textos representativos
Corpus monolingüe /Corpus multilingüe
Corpus paralelos / Corpus comparable
Corpus de aprendientes corpus sincronico / diacronico
Criterios para la selección de textos
Criterios externos tienen en cuenta la situacion de comunicación
Criterios internos se definen de forma linguistica
Equilibrio
Muestreo
Función
Anotación de corpus
La anotación es informacion linguistica de tipo interpretativo para describir los usos del lenguaje
Markup : información objetiva y verificable
Aspectos extratextuales
Identificación y clasificación del texto para su recuperación
Codificación intertextual
Aspectos referentes a la configuración formal del texto
Corpus NO anotado
Corpus anotado
Informaciónlingüísticarelevante-explícita
Texto sencillo y plano
Información lingüistica - implícita
Antes de la anotación
Procesos automáticos llevados a cabo por las herramientas de análisis de corpus
Segmentación
Es la separación de la raíz (lexema) de los morfemas de flexión
Lematización
Proceso de asignación de lema a sus formas flexionadas en el corpus
Tokenización
Token: un uso de una palabra en su forma concreta en un corpus separada por un espacio en blanco
Tipos de anotación
Part of speech
Anotación semántica
Anotación sintáctica
Anotación discursiva
Anotación pragmática
Anotación fonética/prosódica
anotación fonética – pronunciación de una palabra en un corpus oral
anotación prosódica - la acentuación, la entonación y las pausas en un corpus oral
información sobre los actos del habla en la interacción oral
coreferencia en un texto (relaciones anafóricas)
estructura sintáctica de una oración: sintagmas y oraciones subordinadas
categoría semántica de las palabras
incorporación de etiquetas
Lingüística de corpus: áreas de aplicación
Enseñanza de lenguas
Desarrollo de tecnologías del lenguaje
Traducción y estudios de traducción
Investigación sociolingüística
Psicolingüística y adquisición del lenguaje
Análisis del discurso
Análisis del uso del lenguaje
Lingüística forense:
Lexicografía y creación de diccionarios
Estudio de la pragmática
Análisis de lenguajes especializados
Útil para el trabajo en clase
Facilidad de acceso a los corpus en línea
El aprendiz como un investigador:
Uso de los corpus con textos auténticos sin ideas preconcebidas
Ideas clave
Escaso uso de los corpus en una clase de lengua extranjera:
Falta de interés por parte de los profesores
Falta de destrezas y conocimientos por parte de los profesores para utilizar los corpus en clase
Uso de corpus
Crear ejercicios
Demostrar la variación en la gramática
Mostrar cómo las estructuras sintácticas pueden indicar diferencias en el significado
posibles problemas
Estudiantes – reticencia al uso del método inductivo
Actividades basadas en los corpus - inadecuadas para algunos alumnos