Kategóriák: Minden - veracidad - variedad - procesamiento - volumen

a Isabella Herrera 1 éve

98

Concepto de la Big Data

La Big Data se caracteriza por sus grandes volúmenes de información, la alta velocidad a la que se generan estos datos, la variedad de tipos de datos y la veracidad o calidad de los mismos.

Concepto de la Big Data

Concepto de la Big Data

Son los conjuntos de datos o combinaciones de conjuntos de datos cuyo volumen, variabilidad y velocidad de crecimiento dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Velocidad en big data?
La velocidad se refiere a la velocidad con la que se generan los datos. Alta velocidad los datos se generan con un ritmo tal que requiere distintos (distribuidos) técnicas de procesamiento. Un ejemplo de datos que se generan con alta la velocidad serían los mensajes de Twitter o las publicaciones de Facebook.
Volumen en big data?
El volumen de datos se refiere al tamaño de los conjuntos de datos que deben ser analizados y procesados, que ahora suelen superar los terabytes y petabytes.
Variedad en big data
La variedad hace que Big Data sea realmente grande. Big Data proviene de una gran variedad de fuentes y generalmente es uno de tres tipos: estructurado, semiestructurado y datos no estructurados. La variedad de tipos de datos requiere con frecuencia distintas capacidades de procesamiento y algoritmos especializados.

Variedad semiestructurada

Los datos semiestructurados pueden contener ambos tipos de datos. Suelen tener un formato que se puede definir, pero el usuario no lo puede comprender fácilmente y requiere el uso de reglas complejas que ayuden a determinar cómo leer cada pieza de la información. Un ejemplo de un dato semiestructurado es un dato representado en un archivo XML.

Variedad estructurada

Cualquier dato que se pueda almacenar, acceder y procesar en formato fijo recibe el nombre de dato «estructurado». Durante este periodo de tiempo, el talento en la informática ha logrado mejores resultados en el desarrollo de técnicas de trabajo con ese tipo de datos (donde ya se conoce el formato) y se ha derivado valor.

Variedad no estructurado

Son cualquier dato de forma desconocida o cuya estructura se clasifica como un dato no estructurado. Además, de ser enorme en tamaño, los datos no estructurados plantean múltiples desafíos con respecto a su procesamiento para derivar valor de ellos.

Veracidad en big data
La veracidad se refiere a la calidad de los datos que se analizan. La veracidad tiene muchos registros que son valiosos para analizar y que contribuyen de manera significativa a los resultados generales. Datos de baja veracidad, por otro lado, contiene un alto porcentaje de datos sin sentido. Lo no valioso en estos conjuntos de datos se conocen como ruido.