Kategoriak: All - frecuencia - sintaxis - corpus - análisis

arabera Jacob Desciak 2 years ago

152

El Lingüística del Corpus

La lingüística del corpus es una disciplina que utiliza grandes colecciones de textos, conocidos como corpus, para analizar diversos aspectos del lenguaje. Estas herramientas tienen múltiples aplicaciones, incluyendo la enseñanza de lenguas, donde se pueden crear ejercicios, reconocer sinónimos y analizar variaciones gramaticales.

El Lingüística del Corpus

El Lingüística del Corpus

¿Cuáles herramientas puedo utilizar?

Applicaciones
Lingüística forense

identificar voces de una persona basado en patrones

puede sospechar amenazas por los analisis

Procesamiento del lenguaje natural/Inteligencia artificial

interaciones entre ordenador y lenguaje humano

Publicación de libros de referencia
Enseñanza de lenguas

Un corpus usado para enseñanza

contestar fenómenos lingüísticos

reconocer sinónimos

estructuras sintácticas

muestra variaciones de la gramática

crear ejercicios

Investigación lingüística

Tres estudios principales

Discurso

la estructura de un texto

Estudios de la sintaxis

características de estructuras

Estudios del léxico

el uso de palabras, expresiones idiomáticas,etc

Antconc
SketchEngine

¿Cómo se analiza un Corpus?

Otras medidas
N-gram

elementos

five-gram

four-gram

trigram

bigram

unigram

secuencia contigua de n ítems de una secuencia dada de texto

clusters

Hapax legomenon

40% y 60% de las palabras son hapax legomena

palabras que ocurren una vez en un cierto contexto.

Ley de Zipf

se dice cualquier palabra es propocional al WordList

Keyness
Log-likelihood (LL)

analiza con su frecuencia en el corpus de referencia

indicador de keyness

estadísticamente relevante

Keywords

dan pistas sobre el tema del corpus

palabras temátical al corpus

Palabras de interés comparando con otro corpus
T Score

Usado si la comparación entre observadas y esperadas son poco fiables

Mutual Information

Si el resultado es alta

mayor que frecuencia esperada

frecuencia observada mayor

uso conjunto y habitual con palabras

Relativa

usado para compara frecuencia de dos corpus

Absoluta

para analizar sólo un corpus en sí

todas las palabras más frecuentes

Palabras
Ratio

MATTR (Moving Average Type/Token Ratio)

más robusta

usa una ventana para mover largos partes del texto

STTR (Standardised Type/Token Ratio)

herramienta

WordSmith

compara diversidad léxica entre corpus pequeño con un grande

TTR (Type/Token Ratio)

mide la diversidad del vocabulario

Numero de tokens más que types

Type
Tokens

Refiere a anotación

Datos cuanatitativos
Estadística inferencial

hipótesis nula

p-value

p<.05 o p<.01

Si el p-value es igual o mayor que 0,05 (5%), podemos concluir que no hay suficiente evidencia para rechazar la hipótesis

Si el p-value es suficientemente bajo, o sea más bajo que 0,05 (o 5%), por eso rechazamos la hipótesis nula

infiere de una muestra que se trata el uso de la lengua en general (población)

comprueba el significado de los resultados de un análisis

Estadística descriptiva

mediciones

TTR (Type-token ratio) , STTR (Standardised type-token ratio), MATTR (Moving average type-token ratio)

Frecuencia absoluta y relativa

No hay objetivo conducir un test

¿Cómo se desarrollan?

Tareas para orales
anotación de fenómenos paralingüísticos
anotación prosódica
transcripción fonética
transcripción ortográfica
grabación y digitalización
Tareas para textos
hacer una copia de seguridad del corpus
pre-procesar el texto: eliminar fotos, imágenes, gráficos, referencias bibliográficas, etc. (si se trata de un corpus de texto sólo)
identificar el texto (poner un nombre)
guardar el texto en el formato .txt para su procesamiento en el ordenador
guardar el texto en su formato original (PDF etc.)
guardar la información sobre la fuente de un texto (en la base de datos externa); la fuente debe ser fiable
Representatividad
Grado de saturación

mide al tamaño de su léxico especializado

muestra la representatividad de un corpus especializado

Muestro

número

proporcional a su frecuencia o peso en la población

tamaño

aconsejable utilizar fragmentos de textos

ej. 2.000 palabras de extensión

Hace falta el permiso de copyright

depende de acceso del copyright

muestras

población

Combinación de todo los unidades (libros, revistas, periódicos, etc.)

unidad

periodico

revista

libro

consiste en tomar muestras de textos completos

Equilibro

Ejemplo: BNC 1994

BNC: ampliación de la parte escrita

Desarrolado at UCAS, University of Lancaster

BNC2014: nueva parte oral

Alrededor de 10 millones de palabras

Grabado entre 2012-16

Componente oral

Factores demográficos

No se incluyó información fonética

Interrupciones, los aspectos para-lingüísticos tal como grita y susurra. Uso de léxico y reglas gramaticales de un dialecto

Información que refiere al tiempo, lugar, tema y detalles específicos de los participantes.

Todas las conversaciones se grabaron durante dos días

El número de mujeres y hombres era igual con la edad entre 15 y 60+ años

Participaron 124 voluntarios de 38 regiones diferentes y de cuatro diferentes grupos socio-económicos

Se grabaron conversaciones cotidianas que en total sumaron 2.000 horas de grabación

Parte contextual: Categorías

comentarios deportivos, programas de radio con la participación del público, magazines televisivos

sermones, discursos políticos, reuniones públicas, debates parlamentarios

presentaciones de productos, reuniones, entrevistas

noticias de deporte

clases magistrales, tutorials y la interacción en el aula

Componente escrito

25% informal

45% con un nivel medio de formalidad

30% formal derivado de textos literarios y técnicos

Fuentes

5% - obras de teatro y discursos

5% - cartas, ensayos, actas no publicadas

5% - trípticos y textos cortos tipo tickets de bus, embalajes, etc.

25% - publicaciones periódicas

60% libros

25% a textos 'imaginativos'

70% corresponde a textos escritos

cuestiones puramente pragmáticas

categorías textuales

corpus estáticos

Criterios externos
funciones y características comunicativas
fija la situación de comunicación
Criterios interno
características lingüísticas

sesgado

forma lingüística

¿Qué es un Corpus?

Metodología
Conceptos Claves

Registro

contexto social inmediato

Género

Clase magistral

una clase de evento comunicativo

Coligación

colocación de tipo gramatical

Cluster

identifican patrones fraseológico

grupo de palabras

dos o cinco elementos

Preferencia semántica

Se coloca con lo mismo campo semántico

Prosodia semántica

Palabras colocados con sentidos

Negativo

Positivo

Colocación

tiene un carácter restringido

uso conjunto y habitual de dos o más palabras.

Wordlist

Organizado por frecuencia

Lista de todas las palabras del corpus

Frecuencia

Numero de veces utiliza una palabra en el corpus

Concordancias

Sirve para observar palabra en todos contextos

varias palabras a su izquierda y a su derecha formando una línea

palabra de búsqueda en el centro

líneas de texto extraídas

La anotación de los corpus

la información de tipo lingüístico

Tipos de Corpus

Corpus diacrónico

la misma lengua procedentes de diferentes períodos de tiempo

Corpus sincrónico

útil para estudiar las variedades de una lengua

cubre un período de tiempo concreto

Corpus de los aprendices

Ejemplo

Cambridge Learner Corpus

Corpus of Learner English (ICLE)

Longman Learners' Corpus

las transcripciones de sus interacciones orales

textos escritos por los aprendices de una lengua extranjera

Corpus Comparables

Siguen modelo de BNC

Polish National Corpus

Chinese National Corpus

Korean National Corpus

un equilibrio y representatividad similares

las mismas técnicas de muestreo

en diferentes lenguas

Corpus paralelos

Bilingüe o Multilingüe

Multidireccional

Bidireccional

Unidireccional

Dos corpus

Corpus Multilingüe

Representa dos o más lenguas

Corpus Monolingüe

Representa sola una lengua

Corpus especializado

Michigan Corpus of Academic Spoken English

Guangzhou Petroleum English Corpus

textos representativos de un campo de especialización

literarios

academicos

cientificos

técnicos

Corpus Monitor

NOW Corpus

Crece continuamente

Corpus general

Ejemplos

CORDE

BNC

Comparación a corpus especializados

Corpus cerrado

Caracteristicas

Reutilizable y replicable

Disponibilidad

Ley de derechos del autores

Se pueden publicar en el internet

Textos

Cómo se tratan la información

Asistido por Ordenador

Manual

Sin tratado

Anotado

Anotación

Anotación semántica

USAS UCREL Semantic Analysis System

21 campos semánticos

información de categoría semántica de una palabra

Anotación POC

etiquetas morfo-sintácticas

incluido después de la palabra

CORPORA con esta Anotación

UCREL CLAW

más avanzado

primera versión Corpus BROWN

Etiquetación

selecciona conjunto con su función gramatical

divide los tokens

Tipos de anotación

Anotación fonética /prosódica

prosódica

la acentuación, la entonación y las pausas en un corpus oral

fonética

cómo se pronuncia en un corpus oral

Anotación pragmática

información de actos de hablar

depende de contexto

depende de interacción oral

Anotación discursiva

vinculo entre un pronombre y su antecedente

información de los vinculos analógico entre palabras

Anotación semántica

Añade información de la categoría semántica de la palabra

Anotación sintáctica (parsing)

cómo se construye una oración sintácticamente

Part-of-speech (POS) tagging (anotación morfo-sintáctica)

ayuda diferenciar significados de palabras similares

ejemplo de tagging

present_NN1

sustantivo singular

distingir palabras por tagging

Procesamiento

Lematización

grandisimo

grande

lema

canónica

forma básica de una palabra

Segmentación

ejemplo

comprendería, comprendó, comprendía

comprend

no totalmente automático

morfemas

raiz de palabra

Tokenización

types

numero de palabras únicas

tokens

palabras puede repetir

uso de palabra concreta

información lingüística

Markup

información objetiva

lugar de publicación

división de parafos

nombre de autor

Tamaño

Corpus ha crecido con tiempo

Preguntas para considerar

¿Copyrights?

¿Accesibles?

¿Cuanto trabajo?

¿Aspectos lingüísticos comunes o infrecuentes?

Finito

Muestreo y representatividad

Representividad

Sample

Population

Función

De acuerdo a la pregunta

Formato Electrónico

Fácil almacenamiento