Estándar CRISP-DM (Cross-Industry Standard Process for Data Mining)
¿Qué es CRISP-DM?
Es un estándar para procesos de minería de datos
Fue desarrollado en 1996 para estructurar proyectos de análisis de datos
Se compone de seis fases iterativas
Fases de CRISP-DM en Ciencia de Datos
4. Modelado
Objetivo: Aplicar técnicas de modelado para obtener insights y predicciones
Tareas Claves
Selección de algoritmos
Entrenamiento de modelos
Optimización de hiperparámetros
Entregables
Modelos entrenados
Parámetros óptimos
5. Evaluación
Objetivo: Validar el rendimiento del modelo y su alineación con los objetivos del negocio
Tareas Claves
Comparar modelos
Evaluación con métricas de desempeño
Revisión con stakeholders
Entregables
Informe de evaluación del modelo
6. Despliegue
Objetivo: Implementar y monitorear el modelo en un entorno productivo
Tareas Claves
Integración con sistemas existentes
Automatización de procesos
Monitoreo y mantenimiento
Entregables
Modelo desplegado
Plan de mantenimiento
1. Comprensión del Negocio
Objetivo: Definir el problema y los objetivos del análisis de datos
Tareas Claves
Entender el contexto del negocio
Definir objetivos del proyecto
Determinar espectaivas y criterios de éxito
Entregables
Reporte de objetivos de negocio
Plan de proyecto
2. Comprensión de los Datos
Objetivo: Recolectar, explorar y evaluar la calidad de los datos
Tareas Claves
Identificar fuentes de datos
Exploración inicial
Evaluación de calidad de datos
Entregables
Descripción de los datos
Resumen estadístico
3. Preparación de los Datos
Objetivo: Limpiar, transformar y estructurar los datos para su análisis
Tareas Claves
Selección de datos relevantes
Limpieza de datos
Generación de nuevas variables
Estandarización de formatos
Entregables
Dataset preparado para modelado
Devilidades y Fortalezas
Fortalezas de CRISP-DM
Es una metodología flexible y adaptable a diferentes industrias
Ofrece una estructura clara para abordar proyectos de ciencia de datos
Permite un enfoque iterativo y mejora continua
Debilidades de CRISP-DM
No define herramientas específicas para su implementación
La fase de despliegue está poco detallada en la metodología original
No incorpora explícitamente estrategias modernas como MLOps