proceso de generación de conocimiento automático

Algoritmos de validación

split validation

Utilidad

evaluar los resultados

Validad modelos generados

Tipos

Aleatoria

K iteraciones

cross validation

Modelo

Integrado

Definir problema

Recopilar datos

Elegir una medida

protocolo de evaluación

Set de Validación

Validación “K-Fold”

Iterada “K-Fold”

Preparar los datos

Manejando datos categóricos

Escalación de Características

Selección Características Relevantes

Subsets

Análisis exploratorio

examinar datos en base

distribución

características

objetivos

entender los datos

entender variables

Detectar fallas

diseño

datos

recolección

Transformación de datos

distribución normal

Regresión

Cambio de formato

Fases

Mapeo de datos

asignación de elementos

sistema de origen

capturar de transformaciones

Generación de código

mapa de datos

programa

Lenguajes comunes

Perl

AWK

XSLT

TXL

Evaluación

Comprobación de

set de datos

la máquina creada

Entradas del

modelo

Verificar

la precisión del modelo

Entrenamiento

del modelo

nivel de exactitud

Análisis de información

Comprensión

carecterirticas

Formato

redundancia

Identificar

fuga de datos

errores de sintaxis

Información

Información Privilegiada

Información pública

Información Confidencial

Información Interna

Información Externa

Información Personal

Preparar los datos

Consiste en

manipular data

convertir la data

principales desafíos

Datos Incompletos

Tratamiento

Eliminarlos

Imputarlos

Datos combinados

Formato adecuado

Características irrelevantes

Normalización de datos

tareas

eliminar datos perdidos

inferir datos

categorizar variables

normalizar valores

Integración y limpieza

Identificar datos

incompletos

incorrectos

inexactos

no pertinentes

Eliminar

datos erróneos

datos sucios

Análisis exploratorio

Técnicas estadísticas

variables

Análisis estadístico

estadísticas

cuantificar

Medidas

Media

Desviación estándar

Regresión

Tamaño de la muestra

Elección del algoritmo

Tipo de algoritmo

aprendizaje supervisado

Subtopic

Regresión logística

Regresión del árbol de decisiones

K-Nearest Neighbors (KNN)

Máquina de vectores de soporte (SVM)

Clasificación del árbol de decisiones,

aprendizaje no supervisado

K-Means Clustering

Análisis de componentes principales

Agrupación jerárquica

Selección

atributos

univariante

individual

clasificador bayesiano

tipos

Inferencial

descriptivo

multivariante

red neuronal

Conjunto

estadístico

técnicas

Clases

filtrado

medida estadística

univariantes

independiente

métodos

prueba de Chi cuadrado

prueba F de Fisher

ratio de ganancia de información

coeficientes de correlación

empaquetados

método

algoritmo de eliminación recursiva de atributos

Colectivo

modelo predictivo