Estructuración de un proyecto de Ciencias de Datos

Ciencias de datos

es un

Campo multidisciplinario

que integra

Informática

Matemáticas

Estadística

utiliza

Métodos y técnicas científicas

para

extraer conocimiento y valor

de

Datos estructurados

Datos no estructurados

Objetivo de los proyectos de Ciencia de Datos

Resolver problemas reales complejos

a través de

Técnicas basadas en datos

Aplicabilidad en todos los sectores y dominios

Experiencia en el dominio recomendada para extraer valor de los datos.

Gestión de proyectos en Ciencias de Datos

aborda

Tres áreas clave

que son

Gestión de proyectos

Monitoreo de etapas del proyecto.

Establecimiento de objetivos, etapas, resultados y entregables.

Administración de alcances de tareas y plazos.

Gestión de equipos

Comunicación

Coordinación

Colaboración

Gestión de datos e información

para

Generación de

Insights

Conocimiento

Metodologías de gestión de proyectos en Ciencia de Datos

clasificadas según

El desafío que resuelve

en

Proyectos

Big Data Management Framework

Ideación Evaluación e Implementación de Big Data

Analytics Canvas

AI Ops

Fundamental Methodology for Data Science

Subtópico

CRISP-DM

por su

Acrónimo en inglés

traduce

Proceso Estándar Intersectorial para la Minería de Datos

es

La más utilizada mundialmente

consta de

Seis fases

que son

Comprensión del negocio

Definir objetivos del cliente

Crear el plan de proyecto

Comprensión de los datos

Recolectar y explorar datos

Análisis descriptivo

Preparación de los datos

donde se hace

Limpieza de

Datos incorrectos

Datos faltantes

Transformación

Selección de variables relevantes

Modelado

Seleccionar la técnica de análisis

tales como

Regresión logística

Árboles de desición

Redes neuronales

Construir modelos predictivos

basados en

Datos disponibles

Evaluación

Comparar resultados con objetivos del negocio

para

Ajustar modelos

Seleccionar nuevas técnicas si es necesario

Despliegue

Llevar el modelo a producción

a través de

Integración con software

Generación de informes

Toma de decisiones

Subtópico

Equipos

Managing Information and Data Science Teams

Proyectos y equipos

EMC Data Analytics Life Cycle

Agile Data Science Life Cycle

Systematic Research on Big Data

Proyectos y gestión de datos e información

Big Data Management Canvas

Toward Data Mining Engineering Data Science Edge

Equipos y gestión de datos e información

Development Workflow for Data Scientists

Data Science Workflow

Integrales (proyectos, equipos, datos/información)

Caso de estudio: Scotiabank Colpatria

Gerente del proyecto

Danny Lenis

Objetivos de negocio

Desarrollo de un modelo de scoring de créditos

Mejora de ingresos y utilidad

Modelo

Clasificación supervisada

Tiempo de preparación

8 Meses

Retos principales

Selección de variables con poder de discriminación

Calidad de las bases de datos

Determinar si las variables aplican a todos los clientes

Integración con sistemas externos para obtener información

Consideraciones en la planeación

Metodologías y herramientas a utilizar

Sistema de implementación

Flujio de trabajo

Estimación del tiempo de ejecución del modelo

Elaborado por:
Laura Acosta Quintero