Estructuración de un proyecto de Ciencias de Datos
Ciencias de datos
es un
Campo multidisciplinario
que integra
Informática
Matemáticas
Estadística
utiliza
Métodos y técnicas científicas
para
extraer conocimiento y valor
de
Datos estructurados
Datos no estructurados
Objetivo de los proyectos de Ciencia de Datos
Resolver problemas reales complejos
a través de
Técnicas basadas en datos
Aplicabilidad en todos los sectores y dominios
Experiencia en el dominio recomendada para extraer valor de los datos.
Gestión de proyectos en Ciencias de Datos
aborda
Tres áreas clave
que son
Gestión de proyectos
Monitoreo de etapas del proyecto.
Establecimiento de objetivos, etapas, resultados y entregables.
Administración de alcances de tareas y plazos.
Gestión de equipos
Comunicación
Coordinación
Colaboración
Gestión de datos e información
para
Generación de
Insights
Conocimiento
Metodologías de gestión de proyectos en Ciencia de Datos
clasificadas según
El desafío que resuelve
en
Proyectos
Big Data Management Framework
Ideación Evaluación e Implementación de Big Data
Analytics Canvas
AI Ops
Fundamental Methodology for Data Science
Subtópico
CRISP-DM
por su
Acrónimo en inglés
traduce
Proceso Estándar Intersectorial para la Minería de Datos
es
La más utilizada mundialmente
consta de
Seis fases
que son
Comprensión del negocio
Definir objetivos del cliente
Crear el plan de proyecto
Comprensión de los datos
Recolectar y explorar datos
Análisis descriptivo
Preparación de los datos
donde se hace
Limpieza de
Datos incorrectos
Datos faltantes
Transformación
Selección de variables relevantes
Modelado
Seleccionar la técnica de análisis
tales como
Regresión logística
Árboles de desición
Redes neuronales
Construir modelos predictivos
basados en
Datos disponibles
Evaluación
Comparar resultados con objetivos del negocio
para
Ajustar modelos
Seleccionar nuevas técnicas si es necesario
Despliegue
Llevar el modelo a producción
a través de
Integración con software
Generación de informes
Toma de decisiones
Subtópico
Equipos
Managing Information and Data Science Teams
Proyectos y equipos
EMC Data Analytics Life Cycle
Agile Data Science Life Cycle
Systematic Research on Big Data
Proyectos y gestión de datos e información
Big Data Management Canvas
Toward Data Mining Engineering Data Science Edge
Equipos y gestión de datos e información
Development Workflow for Data Scientists
Data Science Workflow
Integrales (proyectos, equipos, datos/información)
Caso de estudio: Scotiabank Colpatria
Gerente del proyecto
Danny Lenis
Objetivos de negocio
Desarrollo de un modelo de scoring de créditos
Mejora de ingresos y utilidad
Modelo
Clasificación supervisada
Tiempo de preparación
8 Meses
Retos principales
Selección de variables con poder de discriminación
Calidad de las bases de datos
Determinar si las variables aplican a todos los clientes
Integración con sistemas externos para obtener información
Consideraciones en la planeación
Metodologías y herramientas a utilizar
Sistema de implementación
Flujio de trabajo
Estimación del tiempo de ejecución del modelo