Kategorier: Alle - ciberseguridad - decisiones - herramientas - big data

av Jessica Santafe 6 år siden

2802

BIG-DATA

Big Data se refiere a enormes cantidades de datos que exceden la capacidad del software tradicional para ser capturados, procesados y almacenados eficientemente. Este concepto incluye las infraestructuras, tecnologías y servicios diseñados para gestionar tal volumen de información.

BIG-DATA

JESSICA SANTAFE

BIG-DATA



Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.

El concepto de Big Data también engloba las infraestructuras, tecnologías y servicios que han sido creados para poder gestionar esta gran cantidad de información.

 



HERRAMIENTAS

  1. Hadoop

es una de las herramientas más habituales a la hora de procesar datos ya que es capaz de gestionar y analizar grandes volúmenes de información que después será de gran utilidad. Es imprescindible para el análisis de datos en tiempo

real y al ser la gran primera plataforma que salió a la luz sirve como modelo para las demás.

  1. Apache Storm

permite analizar los flujos constantes de información con gran rapidez. Es capaz de procesar millones de datos en cuestión de segundos y las empresas utilizan esta herramienta para obtener la información que se genera en las redes sociales o para conocer cómo los usuarios están utilizando los servicios que ofrece la empresa.

  1. Python

su principal ventaja es que está destinada a cualquier usuario con nociones mínimas de informática. Es una herramienta muy eficiente porque en torno a ella se crea una gran comunidad de usuarios, aunque su principal inconveniente es que el proceso de ejecución es más lento que el de otros programas similares.


  1. Elasticsearch este sistema procesa grandes cantidades de datos a gran escala en tiempo real y con información de cualquier tipo. Además, ayuda a entender mejor los datos mediante diversos tipos de gráficos que evolucionan en tiempo real, usando aquellos que mejor se adapten para encontrar las respuestas a las preguntas que se plantean.
  2. Apache Spark es un motor de procesamiento de datos de código abierto que funciona con gran rapidez. Se considera el primer software open source que hace la programación distribuida muy accesible a los científicos de datos. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R.
  3. MongoDB  pertenece a las bases de datos NoSQL y está orientada a entornos que requieren escalabilidad. Se está convirtiendo en una alternativa para almacenar los datos de las aplicaciones de los usuarios.

CARACTERISTICAS

VISUALIZACIÓN


Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar.



VIABILIDAD


La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.




VERACIDAD


Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida.

Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra.




VARIEDAD


La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil.



VELOCIDAD



La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a la rapidez en la que son creados, almacenados y procesados en tiempo real.



VOLUMEN

Volumen de información


EL volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.



VENTAJAS Y DESVENTAJAS

VENTAJAS


Mejora en la toma de decisiones

Feedback a tiempo real

Conocimiento del mercado

Tecnología del presente y del futuro


DESVENTAJAS



Ataques informáticos

El exceso de datos

Ciberseguridad



TIPOS

DATOS SEMIESTRUCTURADOS


Los datos semiestructurados pueden contener ambas formas de datos. Podemos ver los datos semiestructurados como estructurados, pero no definidos, como una definición de tabla en el DBMS relacional. Ejemplo de datos semiestructurados es un archivo XML.




DATOS NO ESTRUCTURADOS


Datos no estructurados es una fuente de datos heterogénea que contiene una combinación de archivos de texto simples, imágenes, vídeos, etc. Hay organizaciones que tienen una gran cantidad de datos, pero desafortunadamente no saben cómo pueden serle útiles esos datos.

Un ejemplo de datos no estructurados son los resultados de búsqueda que Google Search le brinda.





DATOS ESTRUCTURADOS


Todos los datos que pueden almacenarse, consultarse y procesarse en forma de una clasificación fija se conocen como datos "estructurados".



PARA QUE SIRVE



Big Data es poder diseñar nuevos productos y servicios basándose en los nuevos insights que adquirimos sobre nuestros clientes, sobre nuestra competencia o el mercado en general.