proceso de generación de conocimiento automático
Algoritmos de validación
split validation
Utilidad
evaluar los resultados
Validad modelos generados
Tipos
Aleatoria
K iteraciones
cross validation
Modelo
Integrado
Definir problema
Recopilar datos
Elegir una medida
protocolo de evaluación
Set de Validación
Validación “K-Fold”
Iterada “K-Fold”
Preparar los datos
Manejando datos categóricos
Escalación de Características
Selección Características Relevantes
Subsets
Análisis exploratorio
examinar datos en base
distribución
características
objetivos
entender los datos
entender variables
Detectar fallas
diseño
datos
recolección
Transformación de datos
distribución normal
Regresión
Cambio de formato
Fases
Mapeo de datos
asignación de elementos
sistema de origen
capturar de transformaciones
Generación de código
mapa de datos
programa
Lenguajes comunes
Perl
AWK
XSLT
TXL
Evaluación
Comprobación de
set de datos
la máquina creada
Entradas del
modelo
Verificar
la precisión del modelo
Entrenamiento
del modelo
nivel de exactitud
Análisis de información
Comprensión
carecterirticas
Formato
redundancia
Identificar
fuga de datos
errores de sintaxis
Información
Información Privilegiada
Información pública
Información Confidencial
Información Interna
Información Externa
Información Personal
Preparar los datos
Consiste en
manipular data
convertir la data
principales desafíos
Datos Incompletos
Tratamiento
Eliminarlos
Imputarlos
Datos combinados
Formato adecuado
Características irrelevantes
Normalización de datos
tareas
eliminar datos perdidos
inferir datos
categorizar variables
normalizar valores
Integración y limpieza
Identificar datos
incompletos
incorrectos
inexactos
no pertinentes
Eliminar
datos erróneos
datos sucios
Análisis exploratorio
Técnicas estadísticas
variables
Análisis estadístico
estadísticas
cuantificar
Medidas
Media
Desviación estándar
Regresión
Tamaño de la muestra
Elección del algoritmo
Tipo de algoritmo
aprendizaje supervisado
Subtopic
Regresión logística
Regresión del árbol de decisiones
K-Nearest Neighbors (KNN)
Máquina de vectores de soporte (SVM)
Clasificación del árbol de decisiones,
aprendizaje no supervisado
K-Means Clustering
Análisis de componentes principales
Agrupación jerárquica
Selección
atributos
univariante
individual
clasificador bayesiano
tipos
Inferencial
descriptivo
multivariante
red neuronal
Conjunto
estadístico
técnicas
Clases
filtrado
medida estadística
univariantes
independiente
métodos
prueba de Chi cuadrado
prueba F de Fisher
ratio de ganancia de información
coeficientes de correlación
empaquetados
método
algoritmo de eliminación recursiva de atributos
Colectivo
modelo predictivo