Kategóriák: Minden - conocimiento - datos - información - transformación

a Emmanuel De Jesús García 4 éve

560

proceso de generación de conocimiento automático

El proceso de generación de conocimiento automático implica varias etapas cruciales. Inicialmente, es fundamental definir claramente el problema y recopilar los datos necesarios. Posteriormente, se debe preparar estos datos, lo cual incluye la selección de características relevantes, el manejo de datos categóricos y la normalización de las características.

proceso de generación de conocimiento automático

proceso de generación de conocimiento automático

Selección

Clases
empaquetados

modelo predictivo

Colectivo

método

algoritmo de eliminación recursiva de atributos

filtrado

métodos

coeficientes de correlación

ratio de ganancia de información

prueba F de Fisher

prueba de Chi cuadrado

independiente

univariantes

medida estadística

técnicas
atributos
multivariante

estadístico

Conjunto

red neuronal

univariante

tipos

descriptivo

Inferencial

clasificador bayesiano

individual

Elección del algoritmo

Tipo de algoritmo
aprendizaje no supervisado

Agrupación jerárquica

Análisis de componentes principales

K-Means Clustering

aprendizaje supervisado

Clasificación del árbol de decisiones,

Máquina de vectores de soporte (SVM)

K-Nearest Neighbors (KNN)

Regresión del árbol de decisiones

Regresión logística

Subtopic

Integración y limpieza

Análisis estadístico
Medidas

Tamaño de la muestra

Desviación estándar

Media

cuantificar
estadísticas
variables
Técnicas estadísticas
Eliminar
datos sucios
datos erróneos
Identificar datos
no pertinentes
inexactos
incorrectos
incompletos
tareas
normalizar valores
categorizar variables
inferir datos
eliminar datos perdidos
principales desafíos
Normalización de datos
Características irrelevantes
Formato adecuado
Datos combinados
Datos Incompletos

Tratamiento

Imputarlos

Eliminarlos

Consiste en
convertir la data
manipular data

Análisis de información

Información
Información Personal
Información Externa
Información Interna
Información Confidencial
Información pública
Información Privilegiada
Identificar
errores de sintaxis
fuga de datos
Comprensión
carecterirticas

redundancia

Formato

Evaluación

Verificar
nivel de exactitud
Entrenamiento

del modelo

la precisión del modelo
Entradas del
modelo
Comprobación de
la máquina creada
set de datos

Transformación de datos

Lenguajes comunes
TXL
XSLT
AWK
Perl
Fases
Generación de código

programa

mapa de datos

Mapeo de datos

capturar de transformaciones

sistema de origen

asignación de elementos

Cambio de formato
Regresión
distribución normal

Análisis exploratorio

objetivos
Detectar fallas

recolección

datos

diseño

entender variables
entender los datos
examinar datos en base
características
distribución

Modelo

Integrado
Preparar los datos

Subsets

Selección Características Relevantes

Escalación de Características

Manejando datos categóricos

protocolo de evaluación

Iterada “K-Fold”

Validación “K-Fold”

Set de Validación

Elegir una medida
Recopilar datos
Definir problema

Algoritmos de validación

cross validation
split validation
Tipos

K iteraciones

Aleatoria

Utilidad

Validad modelos generados

evaluar los resultados