ROOT
Life
Reading
Tech
七周七语言
七周七数据库
NoTech
Movie
V for Vendetta
Tech
All About Hadoop
Google 1.0
MapReduce
Google File System
Chubby
BigTable
2.0
Dremel
PowerDrill
Hadoop Ecosystem
Hadoop 1.0
MapReduce
计算模型
HDFS
存储系统。Google File System开源实现
Zookeeper
分布式协作。Facebook贡献。类似GoogleChubby。
HBase
类似Google BigTable。面向列的分布式NoSQL数据库
Hadoop 2.0
YARN
Spark
Shark
BlinkDB
MLbase
SQL on Hadoop
Hive
Facebook开发。数据仓库应用。类似 SQL的HQL语言
原始的SQL-on-Hadoop解决方案
Cloudera Impala
针对Hadoop的开源的“交互式”SQL查询引擎。它由Cloudera构建
Presto
用Java语言开发的、开源的“交互式”SQL查询引擎。Facebook开发
Shark/Spark
由UC Berkeley大学使用Scala语言开发的一个开源SQL查询引擎。构建在已有的 Apache Spark数据处理引擎之上
Apache Drill
针对Hadoop的、开源的“交互式”SQL查询引擎。Drill现在由MapR推动,尽管他们现在也支持Impala。
HAWQ/Greenplum
EMC Pivotal 公司的一个非开源产品
BigSQL
BigSQL用于使用MapReduce和其他能够提供低延迟结果的方法(不详)查询存储在HDFS中的数据
Apache Phoenix
Salesforce开源的基于HBase的SQL查询系统
Apache Tajo
在HDFS之上构建一个先进的数据仓库系统
Tez/Stinger
Hortonworks
Hadapt/HadoopDB
Citusdata
PIG
Yahoo开发。类SQL脚本语言PIG-Latin
Sqoop
在Hadoop和关系数据库间进行数据的传递
Avro
数据序列化格式与传输工具
Ambari
Hadoop管理工具,可以快捷的监控、部署、管理集群
Cassandra
开源分布式NoSQL数据库系统。它最初由Facebook开发。Google BigTable+Amazon Dynamo
Mahout
机器学习和数据挖掘的一个分布式框架
Mahout是MR上的machine learning库
Spark
Hama
基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架,
Giraph
可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel
工作流引擎
Apache Oozie
工作流引擎服务器
Azkaban
日志收集
Flume
分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输
Scribe
Chukwa
监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中
Crunsh
基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库
Whirr
运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务
Bigtop
对Hadoop及其周边生态进行打包,分发和测试的工具
HCatalog
基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。
Hue
个基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
Kafka
分布式发布-订阅消息系统。最初由LinkedIn公司开发
Vendors
Apache
Hadoop 1.0
Hadoop 2.0
Cloudera
CDH3
CDH4
CDH5
Hortonworks
HDP
MapR
Databricks
UC Berkeley AMP lab 成立的公司
Referrences
Hadoop家族学习路线图
http://blog.fens.me/hadoop-family-roadmap/
8个值得关注的SQL-on-Hadoop框架
http://www.infoq.com/cn/news/2014/06/sql-on-hadoop
BDTC2013观后感
http://yanbohappy.sinaapp.com/?p=441
SQL on Hadoop系统的最新进展(1)
http://yanbohappy.sinaapp.com/?p=381
SQL on Hadoop系统的最新进展(2)
http://yanbohappy.sinaapp.com/?p=407
Knowledge
并行程序编程范式(paradigm)
Message Passing
框架(framework) MPI
实现(implementation)MPICH2
MapReduce
MapReduce
Apache Hadoop
BSP范式
实现 Google Pregel
ConfigurationManagement
SaltStack
mine
定义了收集模块,他自己会把数据收集的,存到了哪里,不知道,但是肯定是客户端minino本地
适合变化比较大的
minion
grains
系统和硬件的信息
适合很久很久才变化的
grains信息是每次客户端启动后 就确定了的 除非你每次采集钱都 重启 minion 或者 重新同步下 grains
master对grains有缓存
pillar
module
直接推送模块
returner
event
Python
WebSocket
WebSocket API是下一代客户端-服务器的异步通信方法。该通信取代了单个的TCP套接字,使用ws或wss协议,可用于任意的客户端和服务器程序
Flask
轻量级的Web应用框架
学习资料
Learn Python The Hard Way, 3rd Edition
http://learnpythonthehardway.org/book/
Linux
存储
DeviceMapper
参考
Linux2.6 内核中支持逻辑卷管理的通用设备映射机制
Linux 2.6 内核中提供的一种从逻辑设备到物理设备的映射框架机制
当前比较流行的 Linux 下的逻辑卷管理器如 LVM2(Linux Volume Manager 2 version)、EVMS(Enterprise Volume Management System)、dmraid(Device Mapper Raid Tool)等都是基于该机制实现的
mapped device --> target driver --> mapping table ---> target devices
一对多的关系
用户空间工具: dm库和dmsetup
mdadmin是什么?
设备映射器(也称为 dm_mod)是一个 Linux 内核模块(也可以是内置的),最早出现在 2.6.9 内核中。它的作用是对设备进行映射 —— LVM2 必须使用这个模块
LVM
逻辑卷管理。讲了lvm做数据库备份的操作
http://www.ibm.com/developerworks/cn/linux/l-lvm2/
Subtopic
develop
Software Engineering
Design Pattern
分布式
gossip 协议
Redis Sentinel 使用此协议
http://redis.readthedocs.org/en/latest/topic/sentinel.html
架构