HBase入门详解(二)

大数据
HBase入门详解(二)

环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase开发测试代码准备1234567891011121314151617181920212223242526Configuration conf = null;ExecutorService pool = null;Connection conn = null;Admin admin = n...

HBase入门详解(一)

大数据
HBase入门详解(一)

环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8 简介什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE...

Hive入门详解(三)

大数据
Hive入门详解(三)

内置函数UDF和内置运算符 取随机数rand()select rand() from t_product; 求a的阶乘factorial(INT a)select factorial(10) from t_product; 求最大值greatest(T v1, T v2, …)select greatest(10,123,53,34,1,23,502,120) fro...

Hive入门详解(二)

大数据
Hive入门详解(二)

Hive的DDL操作创建表(四种表) 内部表创建产品表1234create table t_product(id int,name string,price double,category string)row format delimitedfields terminated by ','stored as textfile; 导入数据(从本地)...

Hive入门详解(一)

大数据
Hive入门详解(一)

简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 Hive的优点 学习成本低,避免使用复杂的MapReduce 开发周期短,使用类sql语法,十分简洁 拓展性强 Hive的缺点执行延迟高,处理速度慢,只适合用来做大规模批量数据统计 Hive的组件 用户接口:CLI、JDBC/ODBC、WebGUI CL...

MapReduce入门详解(三)

大数据
MapReduce入门详解(三)

join操作左外连接(map)-JoinMapSideMR问题描述:将两个文件中每行的内容拼接到一个文件中思路分析:准备好两个map,firstMapper和joinMapper,firstMapper负责获取文件内容,joinMapper负责拼接文件内容。利用Job开启两个firstMapper任务,获取到两个文件的内容,然后再开启一个joinMapper任务负责拼接获...

MapReduce入门详解(二)

大数据
MapReduce入门详解(二)

MapReduce实践攻略超详细入门级-WordCount问题描述:统计一个文件中,各种单词出现的次数思路分析: 在map阶段,对每行数据调用一次map方法,对读取到的每行数据按空格进行切割,将分割得到的每个单词作为key,value的值给定为1传递给reduce 在reduce阶段,从map接收到传递过来的key和value,key值相同的为同一组,对每一组只调用一次...

MapReduce入门详解(一)

大数据
MapReduce入门详解(一)

简介Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 MapReduce框架的结构一个完整的mapreduce程序在分布式运行时有三类实例进程: MapReduceApplicati...

HDFS入门详解(二)

大数据
HDFS入门详解(二)

HDFS的java-API操作简介hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个hdfs的访问客户端对象,然后通过该客户端对象操作(增删改查)hdfs上的文件。 导入依赖包(maven)利用maven导入hadoop开发相关的依赖包,pom.xml12345678910111213141516171819202122232425262...

HDFS入门详解(一)

大数据
HDFS入门详解(一)

环境:Hadoop全分布式集群hadoop3.0.3 HDFS简介HDFS(HadoopDistributedFileSystem)即hadoop分布式文件存储系统。 原理将大文件、大批量文件,分布式存储在大量服务器上,以便采取分而治之的方式对海量数据进行分析。 重要概念 文件切块:HDFS中的文件在物理上是分块存储的,block的大小可以通过配置参数自己设置。 副本:...

×
  • {title}