Data Wrangling
Data Wrangling (DW) es un proceso donde se transforman los datos en bruto para que puedan ser útiles posteriormente para ser almacenados y analizados:
- Perfilado: acciones para identificar el contenido de los datos y valorar si son de calidad.
- Individual: analiza la calidad de un conjunto de datos uno por uno.
- Verificación sintáctica: analizar si los datos están dentro del rango de valor correcto.
- Verificación semántica: analizar si los datos están relacionados con el significado que se le atribuye al campo.
- Conjunto: analizar la distribución de un campo y la relación entre campos.
- Estadística general: análisis del conjunto de datos.
- Visualización: representación gráfica de los datos.
- Transformación: modificación de los datos para mejorar su operatividad.
- Estructurar: modificar la estructura de los datos.
- Operación intra-registro: modifica los campos individualmente.
- Operación inter-registro: modifica varios campos a la vez.
- Extracción de valores: generar nuevos campos a partir de los anteriores.
- Enriquecer: incluir nueva información a un conjunto de datos.
- Unión: combinar dos o más conjuntos de datos en uno.
- Joins: añadir un campo de una tabla a otra tabla.
- Insertar metadatos: insertar información que describe a los datos.
- Variables derivadas: generar valores en un campo a partir de otros campos.
- Limpiar: eliminar o corregir datos erróneos.
Transformación
Limpiar
Enriquecer
Variables derivadas
Insertar metadatos
Joins
Unión
Estructurar
Extracción de valores
Operaciones inter-registro
Operaciones intra-registro
Perfilado
Conjunto
Visualización
Estadística general
Individual
Verificación semántica
Verificación sintáctica
MACHINE LEARNING
Machine Learning es como se conoce a un conjunto de técnicas que permiten a los ordenadores aprender a partir de los datos. Actualmente se ha convertido en una disciplina científica, académica y profesional.
Conjunto de técnicas que permiten a los ordenadores aprender a partir de los datos. Actualmente se ha convertido en una disciplina científica, académica y profesional.
Aprendizaje
supervisado
Son un grupo de técnicas que permiten relacionar un conjunto de variables atributos o características con una variable dependiente o criterio conocida como "target". Este grupo de técnicas generan una función que trata de predecir el valor del target para cada caso, a partir de la combinación del resto de variables atributos.
Árboles de Decisión
Regresión Logística
Regresión Lineal
Aprendizaje no
supervisado
Conjunto de técnicas que tratan de identificar patrones organizativos entre los datos sin que haya un criterio de comparación que permita supervisar el proceso de organización.
K-Means