Pasos para un Proyecto de Ciencia de datos Genjis A. Ossa
Aspectos Estructurales y Procedimentales
Comprensión del Negocio.
Definición del problema.
Identificación de objetivos.
Identificación de restricciones y recursos.
Entorno del negocio.
Comprensión de los Datos.
Recolección de datos.
Análisis exploratorio de datos.
Evaluación de calidad de los datos.
Preparación de los Datos.
Limpieza de datos.
Transformación de datos.
Selección de variables.
Integración de datos.
Modelado.
Selección de algoritmos.
División de datos (si aplica)
Entrenamiento del modelo (si aplica)
Optimización de hiperparámetros.
Evaluación.
Evaluación de desempeño del modelo.
Comparación con objetivos del negocio.
Validación con stakeholders.
Despliegue del modelo.
Metodologias
CRISP-DM
Proyectos generales de minería de datos.
ASUM-DM
Proyectos complejos en grandes empresas.
KDD
Proyectos enfocados en análisis de grandes bases de datos.
SEMMA
Proyectos de análisis de datos altamente técnicos.
TDSP
Proyectos de ciencia de datos en equipos grandes.
Agile Data Science
Proyectos que requieren rapidez y adaptabilidad.
DSDM
Proyectos con plazos ajustados.
Herramientas
Lenguajes de Programación
Plataformas y Entornos de Desarrollo
Herramientas de Análisis y Minería de Datos
Herramientas de Big Data y Procesamiento Distribuido
Herramientas de Visualización de Datos
Herramientas de Almacenamiento de Datos y Bases de Datos
Dificultades y retos
Comprensión del Negocio
Falta de claridad en los objetivos del negocio.
Comprensión de los Datos
Datos de mala calidad.
Dificultad para acceder a los datos.
Preparación de los Datos.
Selección incorrecta de variables.
Incompatibilidad de datos.
Modelado.
Selección inadecuada de algoritmos.
Alto costo computacional.
Evaluación y Despliegue.
Mala generalización del modelo.
Incompatibilidad con la infraestructura.
Desalineación con los objetivos de negocio.
Impactos
Impactos Técnicos
Optimización del rendimiento.
Innovación tecnológica.
Aumento en la precisión de los modelos.
Impactos Económicos
Reducción de costos.
Mejora en la rentabilidad.
Optimización de recursos.
Impactos Organizacionales
Mejora en la toma de decisiones estratégicas.
Desarrollo de capacidades internas.
Impactos sociales
Mejora en la calidad del servicio.
Transparencia y responsabilidad.
Sectores de influencia
Sector Financiero
Evaluación de riesgos.
Prevención de fraudes.
Sector Salud
Predicción de enfermedades.
Sector Retail
Análisis de comportamiento del cliente.
Optimización de la cadena de suministro.
Sector de Transporte y Logística
Optimización de rutas.
Mantenimiento predictivo.
Sector de Gobierno y Servicios Públicos.
Gestión de recursos públicos.
Análisis de políticas públicas.