Concepto de la Big Data
Son los conjuntos de datos o combinaciones de conjuntos de datos cuyo volumen, variabilidad y velocidad de crecimiento dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.
Veracidad en big data
La veracidad se refiere a la calidad de los datos que se analizan. La veracidad tiene muchos registros que son valiosos para analizar y que contribuyen de manera significativa a los resultados generales. Datos de baja veracidad, por otro lado, contiene un alto porcentaje de datos sin sentido. Lo no valioso en estos conjuntos de datos se conocen como ruido.
Variedad en big data
La variedad hace que Big Data sea realmente grande. Big Data proviene de una gran variedad
de fuentes y generalmente es uno de tres tipos: estructurado, semiestructurado
y datos no estructurados. La variedad de tipos de datos requiere con frecuencia distintas capacidades de procesamiento y algoritmos especializados.
Variedad no estructurado
Son cualquier dato de forma desconocida o cuya estructura se clasifica como un dato no estructurado. Además, de ser enorme en tamaño, los datos no estructurados plantean múltiples desafíos con respecto a su procesamiento para derivar valor de ellos.
Variedad estructurada
Cualquier dato que se pueda almacenar, acceder y procesar en formato fijo recibe el nombre de dato «estructurado». Durante este periodo de tiempo, el talento en la informática ha logrado mejores resultados en el desarrollo de técnicas de trabajo con ese tipo de datos (donde ya se conoce el formato) y se ha derivado valor.
Variedad semiestructurada
Los datos semiestructurados pueden contener ambos tipos de datos. Suelen tener un formato que se puede definir, pero el usuario no lo puede comprender fácilmente y requiere el uso de reglas complejas que ayuden a determinar cómo leer cada pieza de la información. Un ejemplo de un dato semiestructurado es un dato representado en un archivo XML.
Volumen en big data?
El volumen de datos se refiere al tamaño de los conjuntos de datos que deben ser
analizados y procesados, que ahora suelen superar los terabytes y
petabytes.
Velocidad en big data?
La velocidad se refiere a la velocidad con la que se generan los datos. Alta velocidad
los datos se generan con un ritmo tal que requiere distintos (distribuidos)
técnicas de procesamiento. Un ejemplo de datos que se generan con alta
la velocidad serían los mensajes de Twitter o las publicaciones de Facebook.