Kategorien: Alle - preparación - datos - modelado - evaluación

von Ely Micky Vor 4 Jahren

594

Metodologia CRISP-DM

La metodología CRISP-DM es un enfoque cíclico para los proyectos de análisis de datos. Este enfoque consta de seis fases principales: comprensión de los datos, preparación de los datos, modelado, evaluación, implementación y monitoreo.

Metodologia CRISP-DM

Metodologia CRISP-DM

Recientemente ha resurgido una nueva iniciativa, crisp-dm.eu, sin mucho impacto hasta el momento.

El consorcio que planteó CRISP-DM se disolvió hace unos años. Pese a ello, CRISP-DM es la metodología que se utiliza de facto, de una forma u otra, en los proyectos de análisis de datos que se pretendan abordar con seriedad y asegurando la calidad de los resultados.

Conclusión

A modo de conclusión-resumen, la siguiente figura presenta una guía visual de todas las fases, listando las tareas a realizar en cada fase, así como las conexiones entre ellas y las iteraciones que pueden llevarse a cabo. Esta figura ha sido tomada de «A visual guide to CRISP-DM methodology«.

El círculo externo en la figura simboliza la naturaleza cíclica de los proyectos de análisis de datos

Las flechas indican las dependencias más importantes y frecuentes.

La secuencia de las fases no es rígida: se permite movimiento hacia adelante y hacia atrás entre diferentes fases

El ciclo de vida del proyecto de minería de datos consiste en seis fases mostradas en la figura siguiente.

Fase VI. Deployment. Despliegue (puesta en producción)

Generalmente, la creación del modelo no es el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento obtenido tendrá que organizarse y presentarse para que el cliente pueda usarlo. Dependiendo de los requisitos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización periódica y quizás automatizada de un proceso de análisis de datos en la organización.

Fase V. Evaluation. Evaluación (obtención de resultados)

En esta etapa en el proyecto, se han construido uno o varios modelos que parecen alcanzar calidad suficiente desde la una perspectiva de análisis de datos.

Fase IV. Modeling. Modelado

En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes al problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos.

Fase III. Data Preparation. Análisis de los datos y selección de características

La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan.

Fase II. Data Understanding. Estudio y comprensión de los datos

La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.

Fase I. Business Understanding. Definición de necesidades del cliente

Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.

La metodología CRISP-DM contempla el proceso de análisis de datos como un proyecto profesional, estableciendo así un contexto mucho más rico que influye en la elaboración de los modelos