Elaborado por: Cristian Ríos Hernández
Estándar CRISP-DM (Cross-Industry Standard Process for Data Mining)
Devilidades y Fortalezas
Debilidades de CRISP-DM
No incorpora explícitamente estrategias modernas como MLOps
La fase de despliegue está poco detallada en la metodología original
No define herramientas específicas para su implementación
Fortalezas de CRISP-DM
Permite un enfoque iterativo y mejora continua
Ofrece una estructura clara para abordar proyectos de ciencia de datos
Es una metodología flexible y adaptable a diferentes industrias
Fases de CRISP-DM en Ciencia de Datos
3. Preparación de los Datos
Dataset preparado para modelado
Estandarización de formatos
Generación de nuevas variables
Limpieza de datos
Selección de datos relevantes
Objetivo: Limpiar, transformar y estructurar los datos para su análisis
2. Comprensión de los Datos
Resumen estadístico
Descripción de los datos
Evaluación de calidad de datos
Exploración inicial
Identificar fuentes de datos
Objetivo: Recolectar, explorar y evaluar la calidad de los datos
1. Comprensión del Negocio
Plan de proyecto
Reporte de objetivos de negocio
Determinar espectaivas y criterios de éxito
Definir objetivos del proyecto
Entender el contexto del negocio
Objetivo: Definir el problema y los objetivos del análisis de datos
6. Despliegue
Plan de mantenimiento
Modelo desplegado
Monitoreo y mantenimiento
Automatización de procesos
Integración con sistemas existentes
Objetivo: Implementar y monitorear el modelo en un entorno productivo
5. Evaluación
Informe de evaluación del modelo
Revisión con stakeholders
Evaluación con métricas de desempeño
Comparar modelos
Objetivo: Validar el rendimiento del modelo y su alineación con los objetivos del negocio
4. Modelado
Entregables
Parámetros óptimos
Modelos entrenados
Tareas Claves
Optimización de hiperparámetros
Entrenamiento de modelos
Selección de algoritmos
Objetivo: Aplicar técnicas de modelado para obtener insights y predicciones
¿Qué es CRISP-DM?
Se compone de seis fases iterativas
Fue desarrollado en 1996 para estructurar proyectos de análisis de datos
Es un estándar para procesos de minería de datos