Skip to content

大数据学习路线

郭帅 edited this page Feb 26, 2018 · 3 revisions

BI :商业业务报表开发,商业智能 工作:80%做这个数据分析(商业智能) 20%数据挖掘(公式(有框架)+业务(主要)) BIEE:Oracle的bi框架

数据库与数据仓库?

数据库主要是对接应用系统,数据仓库主要对接分析系统

HADOOP:

hdfs

mapreduce

yarn

HIVE:分布式数据仓库

zookeeper:一致性算法工具

HBase:基于hadoop的分布式的nosql的数据库

flume:日志采集

sqoop:数据库数据采集

kafka:消息系统

scala:语言

SPARK:数据计算软件栈


kettle:etl工具

elasticsearth:全文检索搜索引擎

storm:(实时数据)流处理工具

企业级版本:

cdh: cloudermanager

hue:开发环境(类似Eclipse)

impala

oozie,azkban:调度系统,工作流框架


重点:

一级:

大数据存储:Hbase,hdfs

大数据计算:Hive,Spark(Scala)

二级:

数据采集,搜集:flume,kafka,sqoop

三级:

etl工具:kettle(代码简单,页面化操作)

不重要,不需要在上面花费太多时间,了解即可

elasticsearth,storm,cdh,oozie,azkban


特级!: sql(50道题)