¿Cómo se estructura un proyecto de ciencia de datos?
¿Qué es un Proyecto?
Temporalidad (Tiene un inicio y un Fin)
Busca un Objetivo
Recursos Limitados
Interdisciplinariedad
Planificación
Estructura
En busca de un cambio e Innovación
Riesgos e Incertidumbres
Organización temporal
Adaptabilidad
¿Qué es la Ciencia de Datos?
Intersección a la informaciòn
Ingeniería Empresarial
Estadística
Minería de Datos
Aprendizaje Automático
Datos Complejos
Multidisciplinario
Matemáticas
Métodos y Técnicas Científicas
Datos Estructurados
Datos No Estructurados
Conociendo sus Desafíos
Gestión de Equipos
Mala Coordinaciòn
Problemas de Elaboración de Equipos
Falta de Comunicación transparente
Modelos de Gobernanza Ineficientes
Falta de Personas con habilidades analíticas
No confiar únicamente en los científicos de datos líder
Construir Equipo Multidisciplinarios
Gestión de Proyectos
Bajo Nivel de Madurez del Proceos
Objetivos Comerciales Inciertos
Establecer expectativas adecuadas
Es difícil establecer plazos realistas
Énfasis sesgado en cuestiones técnicas
Entregar algo equivocado
Proyecto no Utilizado por la empresa
Gestión de Datos e Información
Falta de Preproducción de los proyectos
Retención y acumulación de conocimientos
Baja calidad de Datos
Sin Datos de Validación
Seguridad y Privacidad de Datos
Inversión de Infraestructura
Estableciendo una Metodología
Equipo Resiliente
MIDST
Algunas Características
Colaboración Multidisciplinaria
Calidad de Datos
Mejorar la coordinación de equipo
Coordinación estigmática
Integra ciencias de datos, tecnología y procesos de negocio
Ciclo iterativo
Escalable y Flexible
Apoya en la toma de decisiones
Documentación detallada
Evaluación continua
Privacidad de Datos
Tecnologías Emergentes
Equipo y Data+Info Resiliente
Development Workflows For Data Scientists
Algunas Características
Documentar es Fundamental
Se sugiere 2 equipos, 1 para construir modelos y el otro para evaluarlo, complemetamente separados
El gran reto es comprender los objetivos empresariales
Sigue una Estructura
Plantear una pregunta inicial
Examinar trabajos anteriores
Obtener Datos
Explorar Datos
Modelar Datos
Probar
Documentar
Despliegue en Producción
Comunicación de Resultados
Data Science WorkFlow
Algunas Características
Preparación de datos
Centrado en la investigación
Interpretar los Datos
Difusión de los resultados
Ejecución del análisis
Proyecto y Equipo Resiliente
EMC Data Analytics Lifecycle
Algunas Características
Planificación del Modelo
Preparación de Datos
Concentrar el trabajo inicio y fin del proyecto
Iterativos
Controla el trabajo prematuro
Probar continuamente si el equipo ha logrado avanzar
Construcción del Modelo
Comunicación del resultado
Puesta en Marcha
Descubrimiento de Datos
Agile Data Science Lifecycle
Algunas Características
Agilidad en la practica de la ciencia de datos
Iterar,iterar,iterar
Enviar resultados intermedios
Prototipos de experimentos sobre tareas de ejecuciòn
Importante escuchar los datos
Sube y Baja por la pirámide de valor de los datos
Descubrir y seguir el camino hacia un producto
Describir el Proceso
Fundamental Documentar
Systematic Research on Big Data
Algunas Características
Metodología mas cercana al mundo académico
Enfoque sistemático y centrado en la investigación
No Define Roles
Proyecto Resiliente
Big Data Managing Framework
Algunas Características
No se enfoca en la validación de los modelos implementados
Se Enfoca en aspectos de gestión de cambios
Equipos Multifuncionales
Capacitación de Personas
Consta de 3 Fases
Trabajo preliminar estàtico
Análisis de Datos
Implementación
Big Data Ideation Assessment and Implementation
Algunas Características
Distinción entre la perspectiva que prioriza los negocios y los datos
Pasa por alto los problemas relacionados con el equipo y la gestión de datos
Analytics Canvas
Propone 4 Etapas
Uso Analítico
Análisis de Datos
Pools de Datos
Fuente de Datos
Algunas Características
Ayuda al diseño conceptual del proyecto
Difícil escalar
AI Ops
Algunas Características
Se centra en la implementación y puesta en marcha
No Ofrece pautas de Roles
CRISP-DM
Propone 6 Fases
Fase I Comprensión del Negocio
Determinar objetivos del negocio
Evaluar la situación
Establecer objetivos de Minería de Datos
Crear el plan del Proyecto
Fase II Comprensión de Datos
Recolectar datos Iniciales
Descubrir los Datos
Explorar los Datos
Verificar la Calidad de los Datos
Fase III Preparación de Datos
Seleccionar los Datos
Limpiar Datos
Construir Datos
Integrar Datos
Formatear Datos
Fase IV Modelado
Seleccionar Técnicas de Modelado
Generar Diseño de pruebas
Construir el Modelo
Evaluar el Modelo
Selección de los algoritmos mas apropiados
Fase V Evaluación
Evaluar Resultados del Modelo
Revisar el Proceso
Determinar próximos pasos
Analizar el desempeño del modelo
Busca de Mejoras del Modelo
Fase VI Despliegue
Planificación del despliegue
Planificar el monitoreo y mantenimiento
Producir el Informe Final
Revisar el Proyecto
Foundational Methodology for Data Science
Consta de 10 Etapas
Comprensión de Negocio
Enfoque analítico
Requisito de Datos
Recopilación de Datos
Comprensión de Datos
Preparación de Datos
Modelado
Evaluación
Implementación
Retroalimentación
Integral
RAMSYS
Algunas Características
Enfocado en proyectos rápidos
Colaboración remota
Definición de Roles
Herramientas Web
Establece una Bodega de Información
Iterativa e incremental
Integra tecnologías Emergentes
Flexibilidad y Adaptabilidad
Documentación y Trazabilidad
Enfoque Top-Dowm
Microsoft TDSP
Algunas Características
Definición de Roles
Estructura de proyecto estandarizada
Limitado a servicios de Microsoft
Retroalimentación y ajustes continuos
Definición del ciclo de vida
Enfoque en la toma de decisiones
Colaboración Multidisciplinaria
Calidad de los Datos
Buscar garantizar la infraestructura y recursos
Dominio DS Lifecycle
Algunas Características
Acepta las iteraciones
Permite colaboración multidisciplinaria
Enfoque logístico
Agile Delivery Framework
Algunas Características
Flexibilidad y Adaptabilidad
Fácil adaptabilidad
Orientado al Aprendizaje
Colaboración con el cliente
Asertiva al Cambio
Proyecto y Data+Info Resiliente
Big Data Management Canvas
Consta de 5 Fases
Preparación de los datos
Análisis de datos
Interacción con los datos
Inteligencia de los datos
Efectividad de los datos
Algunas Características
Creación de Valor atreves de los datos
Analítica Rápida
Inteligencia empresarial
Toward Data Mining Engineering
Algunas Características
Muy entrelazado a la ingeniería de Software
Los desafíos relacionados con el equipo quedan sin explorar
Ingeniería Exhaustiva buscando ejecución Exhaustiva
Busca ampliar la metodología CRISP-DM
Data Science Edge
Algunas Características
Basado en el Modelo CRISP-DM
No Define Roles
Incluye Big Data y Actividades de Ciencia de Datos
Se divide en 4 Cuadrantes
Evaluar
Diseñar
Construir
Mejorar
Anticipando los Riesgos o Limitaciones
Limpieza de Datos
Entrega de Informaciòn
Conocimiento Adquirido del Negocio
Versiones sin control
Falta de Reproductividad de los Modelos
Seguridad de la Información