ROOT

Life

Reading

Tech

七周七语言

七周七数据库

NoTech

Movie

V for Vendetta

Tech

All About Hadoop

Google

Google 1.0

MapReduce

Google File System

Chubby

BigTable

2.0

Dremel

PowerDrill

Hadoop Ecosystem

Hadoop 1.0

MapReduce

计算模型

HDFS

存储系统。Google File System开源实现

Zookeeper

分布式协作。Facebook贡献。类似GoogleChubby。

HBase

类似Google BigTable。面向列的分布式NoSQL数据库

Hadoop 2.0

YARN

Spark

Shark

BlinkDB

MLbase

SQL on Hadoop

Hive

Facebook开发。数据仓库应用。类似 SQL的HQL语言

原始的SQL-on-Hadoop解决方案

Cloudera Impala

针对Hadoop的开源的“交互式”SQL查询引擎。它由Cloudera构建

Presto

用Java语言开发的、开源的“交互式”SQL查询引擎。Facebook开发

Shark/Spark

由UC Berkeley大学使用Scala语言开发的一个开源SQL查询引擎。构建在已有的 Apache Spark数据处理引擎之上

Apache Drill

针对Hadoop的、开源的“交互式”SQL查询引擎。Drill现在由MapR推动,尽管他们现在也支持Impala。

HAWQ/Greenplum

EMC Pivotal 公司的一个非开源产品

BigSQL

BigSQL用于使用MapReduce和其他能够提供低延迟结果的方法(不详)查询存储在HDFS中的数据

Apache Phoenix

Salesforce开源的基于HBase的SQL查询系统

Apache Tajo

在HDFS之上构建一个先进的数据仓库系统

Tez/Stinger

Hortonworks

Hadapt/HadoopDB

Citusdata

PIG

Yahoo开发。类SQL脚本语言PIG-Latin

Sqoop

在Hadoop和关系数据库间进行数据的传递

Avro

数据序列化格式与传输工具

Ambari

Hadoop管理工具,可以快捷的监控、部署、管理集群

Cassandra

开源分布式NoSQL数据库系统。它最初由Facebook开发。Google BigTable+Amazon Dynamo

Mahout

机器学习和数据挖掘的一个分布式框架

Mahout是MR上的machine learning库

Spark

Hama

基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架,

Giraph

可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel

工作流引擎

Apache Oozie

工作流引擎服务器

Azkaban

LinkedIn

日志收集

Flume

分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输

Scribe

Chukwa

监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中

Crunsh

基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库

Whirr

运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务

Bigtop

对Hadoop及其周边生态进行打包,分发和测试的工具

HCatalog

基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。

Hue

个基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

Kafka

分布式发布-订阅消息系统。最初由LinkedIn公司开发

Vendors

Apache

Hadoop 1.0

Hadoop 2.0

Cloudera

CDH3

CDH4

CDH5

Hortonworks

HDP

MapR

Databricks

UC Berkeley AMP lab 成立的公司

Referrences

8个值得关注的SQL-on-Hadoop框架
http://www.infoq.com/cn/news/2014/06/sql-on-hadoop

SQL on Hadoop系统的最新进展(1)
http://yanbohappy.sinaapp.com/?p=381

SQL on Hadoop系统的最新进展(2)
http://yanbohappy.sinaapp.com/?p=407

Knowledge

并行程序编程范式(paradigm)

Message Passing

框架(framework) MPI

实现(implementation)MPICH2

MapReduce

MapReduce

Apache Hadoop

BSP范式

实现 Google Pregel

ConfigurationManagement

SaltStack

mine

定义了收集模块,他自己会把数据收集的,存到了哪里,不知道,但是肯定是客户端minino本地

适合变化比较大的

minion

grains

系统和硬件的信息
适合很久很久才变化的

grains信息是每次客户端启动后 就确定了的 除非你每次采集钱都 重启 minion 或者 重新同步下 grains

master对grains有缓存

pillar

module

直接推送模块

returner

event

Python

WebSocket

WebSocket API是下一代客户端-服务器的异步通信方法。该通信取代了单个的TCP套接字,使用ws或wss协议,可用于任意的客户端和服务器程序

Flask

轻量级的Web应用框架

学习资料

Learn Python The Hard Way, 3rd Edition
http://learnpythonthehardway.org/book/

Linux

存储

DeviceMapper

参考

Linux2.6 内核中支持逻辑卷管理的通用设备映射机制

Linux 2.6 内核中提供的一种从逻辑设备到物理设备的映射框架机制

当前比较流行的 Linux 下的逻辑卷管理器如 LVM2(Linux Volume Manager 2 version)、EVMS(Enterprise Volume Management System)、dmraid(Device Mapper Raid Tool)等都是基于该机制实现的

mapped device --> target driver --> mapping table ---> target devices
一对多的关系

用户空间工具: dm库和dmsetup

mdadmin是什么?

设备映射器(也称为 dm_mod)是一个 Linux 内核模块(也可以是内置的),最早出现在 2.6.9 内核中。它的作用是对设备进行映射 —— LVM2 必须使用这个模块

LVM

逻辑卷管理。讲了lvm做数据库备份的操作
http://www.ibm.com/developerworks/cn/linux/l-lvm2/

Subtopic

develop

Software Engineering

Design Pattern

分布式

gossip 协议

架构