proceso de generación de conocimiento automático
Selección
Clases
empaquetados
modelo predictivo
Colectivo
método
algoritmo de eliminación recursiva de atributos
filtrado
métodos
coeficientes de correlación
ratio de ganancia de información
prueba F de Fisher
prueba de Chi cuadrado
independiente
univariantes
medida estadística
técnicas
atributos
multivariante
estadístico
Conjunto
red neuronal
univariante
tipos
descriptivo
Inferencial
clasificador bayesiano
individual
Elección del algoritmo
Tipo de algoritmo
aprendizaje no supervisado
Agrupación jerárquica
Análisis de componentes principales
K-Means Clustering
aprendizaje supervisado
Clasificación del árbol de decisiones,
Máquina de vectores de soporte (SVM)
K-Nearest Neighbors (KNN)
Regresión del árbol de decisiones
Regresión logística
Subtopic
Integración y limpieza
Análisis estadístico
Medidas
Tamaño de la muestra
Desviación estándar
Media
cuantificar
estadísticas
variables
Técnicas estadísticas
Eliminar
datos sucios
datos erróneos
Identificar datos
no pertinentes
inexactos
incorrectos
incompletos
tareas
normalizar valores
categorizar variables
inferir datos
eliminar datos perdidos
principales desafíos
Normalización de datos
Características irrelevantes
Formato adecuado
Datos combinados
Datos Incompletos
Tratamiento
Imputarlos
Eliminarlos
Consiste en
convertir la data
manipular data
Análisis de información
Información
Información Personal
Información Externa
Información Interna
Información Confidencial
Información pública
Información Privilegiada
Identificar
errores de sintaxis
fuga de datos
Comprensión
carecterirticas
redundancia
Formato
Evaluación
Verificar
nivel de exactitud
Entrenamiento
del modelo
la precisión del modelo
Entradas del
modelo
Comprobación de
la máquina creada
set de datos
Transformación de datos
Lenguajes comunes
TXL
XSLT
AWK
Perl
Fases
Generación de código
programa
mapa de datos
Mapeo de datos
capturar de transformaciones
sistema de origen
asignación de elementos
Cambio de formato
Regresión
distribución normal
Análisis exploratorio
objetivos
Detectar fallas
recolección
datos
diseño
entender variables
entender los datos
examinar datos en base
características
distribución
Modelo
Integrado
Preparar los datos
Subsets
Selección Características Relevantes
Escalación de Características
Manejando datos categóricos
protocolo de evaluación
Iterada “K-Fold”
Validación “K-Fold”
Set de Validación
Elegir una medida
Recopilar datos
Definir problema
Algoritmos de validación
cross validation
split validation
Tipos
K iteraciones
Aleatoria
Utilidad
Validad modelos generados
evaluar los resultados