CRoss Industry Standard Process for Data Mining (CRISPDM)
El proceso CRISP-DM es una metodología estándar para la minería de datos que consta de varias fases, cada una con actividades específicas. La fase de comprensión de datos implica la recolección y exploración inicial de datos para identificar problemas de calidad y obtener conocimientos preliminares.
CRoss Industry Standard Process for Data Mining (CRISPDM)
Fases
Despliegue
Generalmente, la creación del modelo no es el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento obtenido tendrá que organizarse y presentarse para que el cliente pueda usarlo. Dependiendo de los requisitos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización periódica y quizás automatizada de un proceso de análisis de datos en la organización.
Instalar los modelos resultantes en la práctica
Configuración para minería de datos de forma repetida ó continua
Evaluación
En esta etapa en el proyecto, se han construido uno o varios modelos que parecen alcanzar calidad suficiente desde la una perspectiva de análisis de datos.
Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y revisar los pasos ejecutados para crearlo, comparar el modelo obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no haya sido considerada suficientemente. Al final de esta fase, se debería obtener una decisión sobre la aplicación de los resultados del proceso de análisis de datos.
Determinar si los resultados coinciden con los objetivos del negocio
Identificar las temas de negocio que deberían haberse abordado
Modelamiento
En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes al problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos. Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requerimientos específicos sobre la forma de los datos. Por lo tanto, casi siempre en cualquier proyecto se acaba volviendo a la fase de preparación de datos.
Implementación en herramientas de Minería de Datos
Preparación de Datos
La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan.
Selección de datos
Limpieza de datos
Comprensión de los datos
La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.
Obtención conjunto inicial de datos.
Exploración del conjunto de datos.
Identificar las características de calidad de los datos
Identificar los resultados iniciales obvios.
Comprensión del negocio
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.
Entendimiento de los objetivos y requerimientos del proyecto
Definición del problema de Minería de Datos