realizată de Jacob Desciak 2 ani în urmă
138
Mai multe ca aceasta
identificar voces de una persona basado en patrones
puede sospechar amenazas por los analisis
interaciones entre ordenador y lenguaje humano
Un corpus usado para enseñanza
contestar fenómenos lingüísticos
reconocer sinónimos
estructuras sintácticas
muestra variaciones de la gramática
crear ejercicios
Tres estudios principales
Discurso
la estructura de un texto
Estudios de la sintaxis
características de estructuras
Estudios del léxico
el uso de palabras, expresiones idiomáticas,etc
elementos
five-gram
four-gram
trigram
bigram
unigram
secuencia contigua de n ítems de una secuencia dada de texto
clusters
40% y 60% de las palabras son hapax legomena
palabras que ocurren una vez en un cierto contexto.
se dice cualquier palabra es propocional al WordList
analiza con su frecuencia en el corpus de referencia
indicador de keyness
estadísticamente relevante
dan pistas sobre el tema del corpus
palabras temátical al corpus
Usado si la comparación entre observadas y esperadas son poco fiables
Si el resultado es alta
mayor que frecuencia esperada
frecuencia observada mayor
uso conjunto y habitual con palabras
usado para compara frecuencia de dos corpus
para analizar sólo un corpus en sí
todas las palabras más frecuentes
MATTR (Moving Average Type/Token Ratio)
más robusta
usa una ventana para mover largos partes del texto
STTR (Standardised Type/Token Ratio)
herramienta
WordSmith
compara diversidad léxica entre corpus pequeño con un grande
TTR (Type/Token Ratio)
mide la diversidad del vocabulario
Numero de tokens más que types
Refiere a anotación
hipótesis nula
p-value
p<.05 o p<.01
Si el p-value es igual o mayor que 0,05 (5%), podemos concluir que no hay suficiente evidencia para rechazar la hipótesis
Si el p-value es suficientemente bajo, o sea más bajo que 0,05 (o 5%), por eso rechazamos la hipótesis nula
infiere de una muestra que se trata el uso de la lengua en general (población)
comprueba el significado de los resultados de un análisis
mediciones
TTR (Type-token ratio) , STTR (Standardised type-token ratio), MATTR (Moving average type-token ratio)
Frecuencia absoluta y relativa
No hay objetivo conducir un test
mide al tamaño de su léxico especializado
muestra la representatividad de un corpus especializado
número
proporcional a su frecuencia o peso en la población
tamaño
aconsejable utilizar fragmentos de textos
ej. 2.000 palabras de extensión
Hace falta el permiso de copyright
depende de acceso del copyright
muestras
población
Combinación de todo los unidades (libros, revistas, periódicos, etc.)
unidad
periodico
revista
libro
consiste en tomar muestras de textos completos
Ejemplo: BNC 1994
BNC: ampliación de la parte escrita
Desarrolado at UCAS, University of Lancaster
BNC2014: nueva parte oral
Alrededor de 10 millones de palabras
Grabado entre 2012-16
Componente oral
Factores demográficos
No se incluyó información fonética
Interrupciones, los aspectos para-lingüísticos tal como grita y susurra. Uso de léxico y reglas gramaticales de un dialecto
Información que refiere al tiempo, lugar, tema y detalles específicos de los participantes.
Todas las conversaciones se grabaron durante dos días
El número de mujeres y hombres era igual con la edad entre 15 y 60+ años
Participaron 124 voluntarios de 38 regiones diferentes y de cuatro diferentes grupos socio-económicos
Se grabaron conversaciones cotidianas que en total sumaron 2.000 horas de grabación
Parte contextual: Categorías
comentarios deportivos, programas de radio con la participación del público, magazines televisivos
sermones, discursos políticos, reuniones públicas, debates parlamentarios
presentaciones de productos, reuniones, entrevistas
noticias de deporte
clases magistrales, tutorials y la interacción en el aula
Componente escrito
25% informal
45% con un nivel medio de formalidad
30% formal derivado de textos literarios y técnicos
Fuentes
5% - obras de teatro y discursos
5% - cartas, ensayos, actas no publicadas
5% - trípticos y textos cortos tipo tickets de bus, embalajes, etc.
25% - publicaciones periódicas
60% libros
25% a textos 'imaginativos'
70% corresponde a textos escritos
cuestiones puramente pragmáticas
categorías textuales
corpus estáticos
sesgado
Registro
contexto social inmediato
Género
Clase magistral
una clase de evento comunicativo
Coligación
colocación de tipo gramatical
Cluster
identifican patrones fraseológico
grupo de palabras
dos o cinco elementos
Preferencia semántica
Se coloca con lo mismo campo semántico
Prosodia semántica
Palabras colocados con sentidos
Negativo
Positivo
Colocación
tiene un carácter restringido
uso conjunto y habitual de dos o más palabras.
Wordlist
Organizado por frecuencia
Lista de todas las palabras del corpus
Frecuencia
Numero de veces utiliza una palabra en el corpus
Concordancias
Sirve para observar palabra en todos contextos
varias palabras a su izquierda y a su derecha formando una línea
palabra de búsqueda en el centro
líneas de texto extraídas
La anotación de los corpus
la información de tipo lingüístico
Corpus diacrónico
la misma lengua procedentes de diferentes períodos de tiempo
Corpus sincrónico
útil para estudiar las variedades de una lengua
cubre un período de tiempo concreto
Corpus de los aprendices
Ejemplo
Cambridge Learner Corpus
Corpus of Learner English (ICLE)
Longman Learners' Corpus
las transcripciones de sus interacciones orales
textos escritos por los aprendices de una lengua extranjera
Corpus Comparables
Siguen modelo de BNC
Polish National Corpus
Chinese National Corpus
Korean National Corpus
un equilibrio y representatividad similares
las mismas técnicas de muestreo
en diferentes lenguas
Corpus paralelos
Bilingüe o Multilingüe
Multidireccional
Bidireccional
Unidireccional
Dos corpus
Corpus Multilingüe
Representa dos o más lenguas
Corpus Monolingüe
Representa sola una lengua
Corpus especializado
Michigan Corpus of Academic Spoken English
Guangzhou Petroleum English Corpus
textos representativos de un campo de especialización
literarios
academicos
cientificos
técnicos
Corpus Monitor
NOW Corpus
Crece continuamente
Corpus general
Ejemplos
CORDE
BNC
Comparación a corpus especializados
Corpus cerrado
Reutilizable y replicable
Disponibilidad
Ley de derechos del autores
Se pueden publicar en el internet
Textos
Cómo se tratan la información
Asistido por Ordenador
Manual
Sin tratado
Anotado
Anotación
Anotación semántica
USAS UCREL Semantic Analysis System
21 campos semánticos
información de categoría semántica de una palabra
Anotación POC
etiquetas morfo-sintácticas
incluido después de la palabra
CORPORA con esta Anotación
UCREL CLAW
más avanzado
primera versión Corpus BROWN
Etiquetación
selecciona conjunto con su función gramatical
divide los tokens
Tipos de anotación
Anotación fonética /prosódica
prosódica
la acentuación, la entonación y las pausas en un corpus oral
fonética
cómo se pronuncia en un corpus oral
Anotación pragmática
información de actos de hablar
depende de contexto
depende de interacción oral
Anotación discursiva
vinculo entre un pronombre y su antecedente
información de los vinculos analógico entre palabras
Anotación semántica
Añade información de la categoría semántica de la palabra
Anotación sintáctica (parsing)
cómo se construye una oración sintácticamente
Part-of-speech (POS) tagging (anotación morfo-sintáctica)
ayuda diferenciar significados de palabras similares
ejemplo de tagging
present_NN1
sustantivo singular
distingir palabras por tagging
Procesamiento
Lematización
grandisimo
grande
lema
canónica
forma básica de una palabra
Segmentación
ejemplo
comprendería, comprendó, comprendía
comprend
no totalmente automático
morfemas
raiz de palabra
Tokenización
types
numero de palabras únicas
tokens
palabras puede repetir
uso de palabra concreta
información lingüística
Markup
información objetiva
lugar de publicación
división de parafos
nombre de autor
Tamaño
Corpus ha crecido con tiempo
Preguntas para considerar
¿Copyrights?
¿Accesibles?
¿Cuanto trabajo?
¿Aspectos lingüísticos comunes o infrecuentes?
Finito
Muestreo y representatividad
Representividad
Sample
Population
Función
De acuerdo a la pregunta
Formato Electrónico
Fácil almacenamiento