Proyectos en Ciencia de Datos
Tiene
Etapas estructurales
Como
Formulación del proyecto
Se contempla
Necesidades
Contexto
Equipo de trabajo
Incluye
Plan de trabajo
Planeación analítica
A partir de
Objetivos
Hipótesis
Variables
Indicadores
Presupuesto
Incluye
Costos fijos
Costos variables
Imprevistos
Planeación tecnológica
Herramientas
Como
Sistemas de información
Como
Bases de datos
Sistemas internos
Sistemas externos
Sistemas públicos
Plataformas de apoyo
Como
Hardware
como
Servidores
Equipos de computo
Software
como
Lenguajes de programación
Plataformas de análisis
Estadísticos
Procesamiento y limpieza
Visualización
Inteligencia artificial
Modelos de integración de sistemas
Modelamiento
Tiene etapas de
Identificación
de
Fuente de datos
Tipos de datos
Calidad de los datos
Variables de análissi
Diseño
incluye
Modelo de gobernanza de datos
incluye
Ética
Confidencialidad
Niveles de acceso
Preservación
Disponibilidad
Estándares de metadatos
Exploración de datos
mediante
Selección de la muestra
Estadística descriptiva
para identificar
Tendencias de los datos
Análisis preliminar
Limitaciones en los datos
Modelos estadísticos
Para identificar
Patrones de datos
Validación de hipótesis
Simulaciones
Técnicas de anáilisis
Prueba
Mediante
Validación de datos
además de
Evaluación de variables
Experimentación de modelos
en
Muestras de datos
para evaluar
Niveles de ajuste
Indicadores
y realizar
Ajuste y seguimiento
Grado de resolución
Alcance
Diseño e implementación
adopta
Modelo validado
Indicadores de medición
Requiere
Desarrollos complementarios
Funcionalidad de herramientas
Orientarse al usuario final
debe verificar
Funcionalidad del modelo
frente a
El contexto
Las necesidades
presenta
Dificultades
como
Acceso
a
Datos sensibles
Conexión
entre
Sistemas de información
Plataformas relacionales
Calidad
en
Modelos
Recursos relacionados
en
Acceso a la información
Parámetros o modelos
por
Dificultad en programación
Retos
garantizar
Variables necesarias
Calidad de datos
y
Curación de datos
Tiempo de ejecución
y posible
Continuidad del proyecto
Poder computacional
Se relaciona con
Selección de algoritmos
Trabajo colaborativo
Obtención de recursos
Impactos
Financieros
Estratégicos
Tecnológicos
Éticos
Sociales
a partir de
Políticas públicas
Decisiones gubernamentales
Seguridad y servicio
Marcos normativos
Resultados
Crecimiento financiero
Optimización de recursos
Estructura tecnológica
Automatización de tareas
Gestión estratégica de información
Uso inteligente de datos
Respuesta a necesidades
Trabaja
Minería de datos
Componente clave de
Ciencia de datos
se orientaa a generar
Puntajes y umbrales
para
Toma de decisiones
Información
de
Relación de variables
para construir
Modelos
Parte de
Modelos estables
Teniendo en cuenta
Conjunto de datos
selección de
Muestras representativas
para
Extracción de datos
Sesgos
llevan a
Información incorrecta
Patrones erroneos
Niveles de agregación
para no
confundir
Omitir información
Ciclo del procesamiento de datos
1. Identifica el problema
Convierte
Necesidades
en
problema de datos
define
Hipótesis
para
Responder preguntas
Comprender comportamientos
2. Transforma los datos
depende de
Fuentes de datos
Técnicas de mineria
Variables
Escalas de medición
3. Toma de decisiones
requiere
Análisis exploratorio de datos
requiere
Importancia de variables
para establecer
Categorización de variables
incluye
Estimación de valores
Encotrar grupos
Modelamiento de respuestas
Descripción gr´áfica
4. Medición y seguimiento
define
Medidas
y
Patrones de comportamiento
requiere
Validar el modelo
se clasifica en
Dirigida
Trabaja
Variables objetivo
Modelos explicativos
para encontrar
Patrones
de
Valores objetivos
No dirigida
busca
Patrones generales
de
Variables objetivo
Variables de apoyo
Registros inusuales
utiliza
Reglas de asociación