Estándar CRISP-DM (Cross-Industry Standard Process for Data Mining)

¿Qué es CRISP-DM?

Es un estándar para procesos de minería de datos

Fue desarrollado en 1996 para estructurar proyectos de análisis de datos

Se compone de seis fases iterativas

Fases de CRISP-DM en Ciencia de Datos

4. Modelado

Objetivo: Aplicar técnicas de modelado para obtener insights y predicciones

Tareas Claves

Selección de algoritmos

Entrenamiento de modelos

Optimización de hiperparámetros

Entregables

Modelos entrenados

Parámetros óptimos

5. Evaluación

Objetivo: Validar el rendimiento del modelo y su alineación con los objetivos del negocio

Tareas Claves

Comparar modelos

Evaluación con métricas de desempeño

Revisión con stakeholders

Entregables

Informe de evaluación del modelo

6. Despliegue

Objetivo: Implementar y monitorear el modelo en un entorno productivo

Tareas Claves

Integración con sistemas existentes

Automatización de procesos

Monitoreo y mantenimiento

Entregables

Modelo desplegado

Plan de mantenimiento

1. Comprensión del Negocio

Objetivo: Definir el problema y los objetivos del análisis de datos

Tareas Claves

Entender el contexto del negocio

Definir objetivos del proyecto

Determinar espectaivas y criterios de éxito

Entregables

Reporte de objetivos de negocio

Plan de proyecto

2. Comprensión de los Datos

Objetivo: Recolectar, explorar y evaluar la calidad de los datos

Tareas Claves

Identificar fuentes de datos

Exploración inicial

Evaluación de calidad de datos

Entregables

Descripción de los datos

Resumen estadístico

3. Preparación de los Datos

Objetivo: Limpiar, transformar y estructurar los datos para su análisis

Tareas Claves

Selección de datos relevantes

Limpieza de datos

Generación de nuevas variables

Estandarización de formatos

Entregables

Dataset preparado para modelado

Devilidades y Fortalezas

Fortalezas de CRISP-DM

Es una metodología flexible y adaptable a diferentes industrias

Ofrece una estructura clara para abordar proyectos de ciencia de datos

Permite un enfoque iterativo y mejora continua

Debilidades de CRISP-DM

No define herramientas específicas para su implementación

La fase de despliegue está poco detallada en la metodología original

No incorpora explícitamente estrategias modernas como MLOps

Elaborado por: Cristian Ríos Hernández