Hadoop简介

  1. HADOOP是apache旗下的一套开源软件平台
  2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
  3. HADOOP的核心组件有
    • HDFS(分布式文件系统)
    • MAPREDUCE(分布式运算编程框架)
  4. 广义上来讲,HADOOP通常指的是一个更加广泛的概念——HADOOP生态圈
    重点组件:
    • HDFS:分布式文件系统
    • MAPREDUCE:分布式运算程序开发框架
    • HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
    • HBASE:基于HADOOP的分布式海量数据库
    • ZOOKEEPER:分布式协调服务基础组件
    • Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
    • Oozie:工作流调度框架
    • Sqoop:数据导入导出工具
    • Flume:日志数据采集框架

Hadoop核心组件

分布式文件存储

  1. 简介
    分布式存储系统HDFS(Hadoop Distributed File System)由一个名称节点(NameNode)和多个数据节点(DataNode)组成。该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信进行协作,实现最终的整体功能。
  2. 存储空间问题
    增加数据节点的个数,理论上是无穷大的
  3. 数据安全问题
    • HDFS的默认冗余度为3
    • 效率:水平复制
    • 数据传输按照数据块为单位:Hadoop1.x为64M,Hadoop2.x为128M

分布式计算

  1. 简介
    分布式计算MapReduce是将一个大任务拆分为多个小任务进行计算,然后再把结果进行汇总得到最终计算结果,以此来完成特别大数据量的计算。
  2. MR任务
    • job(主程序)=map+reduce
    • Map的输入是Reduce的输出
    • MR的输入和输出都是在HDFS中

HBase

  1. BigTable思想
    将所有的数据都保存到一张表中
  2. 通过BigTable思想推出NoSql数据库:HBase
  3. HBase表结构
    • 行健:相当于主键,可以重复出现,相同的行健是同一条记录
    • 列族:自动生成对应的列
    • 命令:create ‘student’,’info’,’grade’

最后更新: 2018年11月29日 14:23

原始链接: https://www.lousenjay.top/2018/07/27/Hadoop背景简介/