Estructura de un Proyecto en Ciencia de Datos

Metodología CRISP-DM

Comprensión del Negocio

Definir el problema o la oportunidad

Alinear los objetivos del proyecto con los objetivos de negocio

Comprender lo que la empresa busca lograr

Comprensión de los Datos

Verificar calidad de los datos

Análisis descriptivo

Evaluar la información disponible

Preparación de los Datos

Limpiar datos incorrectos o faltantes

Transformar variables

Seleccionar las características más importantes

Modelado

Seleccionar técnicas de análisis

Ejemplo de técnicas

Regresión logística

Árboles de decisión

Redes neuronales

Construir modelos predictivos

Evaluación

Comparar los resultados con los objetivos del negocio

Asegurar precisión, sensibilidad, especificidad

Ajustar el modelo o seleccionar otro

Verificar utilidad del modelo

Despliegue

Llevar el modelo a producción

Generar informes

Integrar el modelo en sistemas de software

Usar el modelo para toma de decisiones

metodología SEMMA

KDD (Knowledge Discovery in Databases)

Metología ASUM DM

Ejemplo Riesgo de Crédito

Clasificación supervisada

Objetivo: Calcular probabilidades de incumplimiento en clientes del sector financiero

Técnicas utilizadas: Análisis de perfil de crédito de clientes

Optimización: Seleccionar perfiles de clientes con menor riesgo de impago