Hive入门详解(二)

大数据
Hive入门详解(二)

Hive的DDL操作创建表(四种表) 内部表创建产品表1234create table t_product(id int,name string,price double,category string)row format delimitedfields terminated by ','stored as textfile; 导入数据(从本地)...

Hive入门详解(一)

大数据
Hive入门详解(一)

简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 Hive的优点 学习成本低,避免使用复杂的MapReduce 开发周期短,使用类sql语法,十分简洁 拓展性强 Hive的缺点执行延迟高,处理速度慢,只适合用来做大规模批量数据统计 Hive的组件 用户接口:CLI、JDBC/ODBC、WebGUI CL...

MapReduce入门详解(三)

大数据
MapReduce入门详解(三)

join操作左外连接(map)-JoinMapSideMR问题描述:将两个文件中每行的内容拼接到一个文件中思路分析:准备好两个map,firstMapper和joinMapper,firstMapper负责获取文件内容,joinMapper负责拼接文件内容。利用Job开启两个firstMapper任务,获取到两个文件的内容,然后再开启一个joinMapper任务负责拼接获...

MapReduce入门详解(二)

大数据
MapReduce入门详解(二)

MapReduce实践攻略超详细入门级-WordCount问题描述:统计一个文件中,各种单词出现的次数思路分析: 在map阶段,对每行数据调用一次map方法,对读取到的每行数据按空格进行切割,将分割得到的每个单词作为key,value的值给定为1传递给reduce 在reduce阶段,从map接收到传递过来的key和value,key值相同的为同一组,对每一组只调用一次...

MapReduce入门详解(一)

大数据
MapReduce入门详解(一)

简介Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 MapReduce框架的结构一个完整的mapreduce程序在分布式运行时有三类实例进程: MapReduceApplicati...

HDFS入门详解(二)

大数据
HDFS入门详解(二)

HDFS的java-API操作简介hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个hdfs的访问客户端对象,然后通过该客户端对象操作(增删改查)hdfs上的文件。 导入依赖包(maven)利用maven导入hadoop开发相关的依赖包,pom.xml12345678910111213141516171819202122232425262...

HDFS入门详解(一)

大数据
HDFS入门详解(一)

HDFS简介HDFS(HadoopDistributedFileSystem)即hadoop分布式文件存储系统。 原理将大文件、大批量文件,分布式存储在大量服务器上,以便采取分而治之的方式对海量数据进行分析。 重要概念 文件切块:HDFS中的文件在物理上是分块存储的,block的大小可以通过配置参数自己设置。 副本:datanode是HDFS集群的从节点,每个block...

hadoop3.0伪分布式集群搭建

大数据
hadoop3.0伪分布式集群搭建

搭建环境:CentOS7+hadoop3.0.3+jdk8 前提准备 安装配置jdk 配置静态ip地址 修改主机名 配置主机名和ip地址映射 关闭防火墙,设置开机不自启动注:以上操作在笔者之前的Linux相关笔记中均有介绍 正式搭建集群 添加用户hadoop useradd hadoop passwd hadoop 注:后面都统一在hadoop用户下操作,统一权限 创建...

hadoop3.0全分布式集群搭建

大数据
hadoop3.0全分布式集群搭建

hadoop3.0的全分布式搭建折腾了好久,因为网上基本上都是2.x的搭建教程,期间有好几个坑比较难弄,不过最后还是都解决了,下面简要记录笔者的搭建过程,以及遇到的坑。 搭建环境:CentOS7+hadoop3.0.3+jdk8集群配置:1台主节点+3台子节点主节点:hadoop1子节点:hadoop2 hadoop3 hadoop4 前提准备 安装scp服务 安装配置j...

hadoop集群单机模式搭建

大数据
hadoop集群单机模式搭建

配置客户端连接服务器上的hadoop集群,毕竟自己的机子性能有限,进行一些大规模的计算还是需要到服务器上进行,以下记录了配置客户端的全过程。 搭建环境:CentOS7+hadoop3.0.3+jdk8 前置需求 配置静态ip地址 修改主机名 配置主机名和ip地址映射 关闭防火墙,设置开机不自启动 安装并配置好jdk注:以上操作在笔者之前的Linux相关笔记中均有介绍 正...

×
  • {title}