¿Cómo se estructura un proyecto de ciencia de datos?

r

Actividad

¿Qué es un Proyecto?

Temporalidad (Tiene un inicio y un Fin)

Busca un Objetivo

Recursos Limitados

Interdisciplinariedad

Planificación

Estructura

En busca de un cambio e Innovación

Riesgos e Incertidumbres

Organización temporal

Adaptabilidad

¿Qué es la Ciencia de Datos?

Intersección a la informaciòn

Ingeniería Empresarial

Estadística

Minería de Datos

Aprendizaje Automático

Datos Complejos

Multidisciplinario

Matemáticas

Métodos y Técnicas Científicas

Datos Estructurados

Datos No Estructurados

Conociendo sus Desafíos

Gestión de Equipos

Mala Coordinaciòn

Problemas de Elaboración de Equipos

Falta de Comunicación transparente

Modelos de Gobernanza Ineficientes

Falta de Personas con habilidades analíticas

No confiar únicamente en los científicos de datos líder

Construir Equipo Multidisciplinarios

Gestión de Proyectos

Bajo Nivel de Madurez del Proceos

Objetivos Comerciales Inciertos

Establecer expectativas adecuadas

Es difícil establecer plazos realistas

Énfasis sesgado en cuestiones técnicas

Entregar algo equivocado

Proyecto no Utilizado por la empresa

Gestión de Datos e Información

Falta de Preproducción de los proyectos

Retención y acumulación de conocimientos

Baja calidad de Datos

Sin Datos de Validación

Seguridad y Privacidad de Datos

Inversión de Infraestructura

Estableciendo una Metodología

Equipo Resiliente

MIDST

Algunas Características

Colaboración Multidisciplinaria

Calidad de Datos

Mejorar la coordinación de equipo

Coordinación estigmática

Integra ciencias de datos, tecnología y procesos de negocio

Ciclo iterativo

Escalable y Flexible

Apoya en la toma de decisiones

Documentación detallada

Evaluación continua

Privacidad de Datos

Tecnologías Emergentes

Equipo y Data+Info Resiliente

Development Workflows For Data Scientists

Algunas Características

Documentar es Fundamental

Se sugiere 2 equipos, 1 para construir modelos y el otro para evaluarlo, complemetamente separados

El gran reto es comprender los objetivos empresariales

Sigue una Estructura

Plantear una pregunta inicial

Examinar trabajos anteriores

Obtener Datos

Explorar Datos

Modelar Datos

Probar

Documentar

Despliegue en Producción

Comunicación de Resultados

Data Science WorkFlow

Algunas Características

Preparación de datos

Centrado en la investigación

Interpretar los Datos

Difusión de los resultados

Ejecución del análisis

Proyecto y Equipo Resiliente

EMC Data Analytics Lifecycle

Algunas Características

Planificación del Modelo

Preparación de Datos

Concentrar el trabajo inicio y fin del proyecto

Iterativos

Controla el trabajo prematuro

Probar continuamente si el equipo ha logrado avanzar

Construcción del Modelo

Comunicación del resultado

Puesta en Marcha

Descubrimiento de Datos

Agile Data Science Lifecycle

Algunas Características

Agilidad en la practica de la ciencia de datos

Iterar,iterar,iterar

Enviar resultados intermedios

Prototipos de experimentos sobre tareas de ejecuciòn

Importante escuchar los datos

Sube y Baja por la pirámide de valor de los datos

Descubrir y seguir el camino hacia un producto

Describir el Proceso

Fundamental Documentar

Systematic Research on Big Data

Algunas Características

Metodología mas cercana al mundo académico

Enfoque sistemático y centrado en la investigación

No Define Roles

Proyecto Resiliente

Big Data Managing Framework

Algunas Características

No se enfoca en la validación de los modelos implementados

Se Enfoca en aspectos de gestión de cambios

Equipos Multifuncionales

Capacitación de Personas

Consta de 3 Fases

Trabajo preliminar estàtico

Análisis de Datos

Implementación

Big Data Ideation Assessment and Implementation

Algunas Características

Distinción entre la perspectiva que prioriza los negocios y los datos

Pasa por alto los problemas relacionados con el equipo y la gestión de datos

Analytics Canvas

Propone 4 Etapas

Uso Analítico

Análisis de Datos

Pools de Datos

Fuente de Datos

Algunas Características

Ayuda al diseño conceptual del proyecto

Difícil escalar

AI Ops

Algunas Características

Se centra en la implementación y puesta en marcha

No Ofrece pautas de Roles

CRISP-DM

Propone 6 Fases

Fase I Comprensión del Negocio

Determinar objetivos del negocio

Evaluar la situación

Establecer objetivos de Minería de Datos

Crear el plan del Proyecto

Fase II Comprensión de Datos

Recolectar datos Iniciales

Descubrir los Datos

Explorar los Datos

Verificar la Calidad de los Datos

Fase III Preparación de Datos

Seleccionar los Datos

Limpiar Datos

Construir Datos

Integrar Datos

Formatear Datos

Fase IV Modelado

Seleccionar Técnicas de Modelado

Generar Diseño de pruebas

Construir el Modelo

Evaluar el Modelo

Selección de los algoritmos mas apropiados

Fase V Evaluación

Evaluar Resultados del Modelo

Revisar el Proceso

Determinar próximos pasos

Analizar el desempeño del modelo

Busca de Mejoras del Modelo

Fase VI Despliegue

Planificación del despliegue

Planificar el monitoreo y mantenimiento

Producir el Informe Final

Revisar el Proyecto

Foundational Methodology for Data Science

Consta de 10 Etapas

Comprensión de Negocio

Enfoque analítico

Requisito de Datos

Recopilación de Datos

Comprensión de Datos

Preparación de Datos

Modelado

Evaluación

Implementación

Retroalimentación

Integral

RAMSYS

Algunas Características

Enfocado en proyectos rápidos

Colaboración remota

Definición de Roles

Herramientas Web

Establece una Bodega de Información

Iterativa e incremental

Integra tecnologías Emergentes

Flexibilidad y Adaptabilidad

Documentación y Trazabilidad

Enfoque Top-Dowm

Microsoft TDSP

Algunas Características

Definición de Roles

Estructura de proyecto estandarizada

Limitado a servicios de Microsoft

Retroalimentación y ajustes continuos

Definición del ciclo de vida

Enfoque en la toma de decisiones

Colaboración Multidisciplinaria

Calidad de los Datos

Buscar garantizar la infraestructura y recursos

Dominio DS Lifecycle

Algunas Características

Acepta las iteraciones

Permite colaboración multidisciplinaria

Enfoque logístico

Agile Delivery Framework

Algunas Características

Flexibilidad y Adaptabilidad

Fácil adaptabilidad

Orientado al Aprendizaje

Colaboración con el cliente

Asertiva al Cambio

Proyecto y Data+Info Resiliente

Big Data Management Canvas

Consta de 5 Fases

Preparación de los datos

Análisis de datos

Interacción con los datos

Inteligencia de los datos

Efectividad de los datos

Algunas Características

Creación de Valor atreves de los datos

Analítica Rápida

Inteligencia empresarial

Toward Data Mining Engineering

Algunas Características

Muy entrelazado a la ingeniería de Software

Los desafíos relacionados con el equipo quedan sin explorar

Ingeniería Exhaustiva buscando ejecución Exhaustiva

Busca ampliar la metodología CRISP-DM

Data Science Edge

Algunas Características

Basado en el Modelo CRISP-DM

No Define Roles

Incluye Big Data y Actividades de Ciencia de Datos

Se divide en 4 Cuadrantes

Evaluar

Diseñar

Construir

Mejorar

Anticipando los Riesgos o Limitaciones

Limpieza de Datos

Entrega de Informaciòn

Conocimiento Adquirido del Negocio

Versiones sin control

Falta de Reproductividad de los Modelos

Seguridad de la Información

Elaborado por:Edisson Camilo Sanchez Osorio