顿搜
飞过闲红千叶,夕岸在哪
类目归类
谈到大数据,不得不提到Hadoop。Hadoop起源于Google公布的与GFS(谷歌文件系统)、MapReduce(面向大型集群的简化数据处理)、BigTable(结构化数据的分布式存储系统)有关的三篇论文,正是这三篇论文奠定了大数据发展的基石,Hadoop的诞生极大地促进了大数据技术的快速发展。
数据一般有两种来源,一种来自日志文件,一种来自数据库。每种数据源的采集技术有很多种.
Flume、Logstash、Filebeat等工具采集日志文件数据Sqoop、Canal等工具采集数据库中的数据。HDFS分布式文件系统解决了海量数据存储的问题,但是HDFS并不支持数据的随机查询与更新HBase数据库构建在HDFS之上,既解决了海量数据存储又能实现数据的实时随机查询与更新,满足线上用户的服务需求Kafka消息队列作为实时的数据中转服务,对来自各个平台的数据进行流转,达到分享和交换数据的目的MapReduce解决了海量数据分布式计算的问题,当然MapReduce是离线计算框架,仅支持离线计算Hive、Spark Core、Spark SQL、Flink DataSet等技术都支持离线计算Spark StreamingFlink DataStream等实时计算模型
系统架构从下至上,
在项目系统架构设计中,Zookeeper协调各个技术组件,IDEA基于Maven