Spark入门详解(二)-Spark运行原理

大数据
Spark入门详解(二)-Spark运行原理

Spark运行过程Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。 Spark大致运行流程: 1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等) 2、Cluster manager分配应用程序执行需要的资源,在Wo...

Spark环境搭建(多种模式)

大数据
Spark环境搭建(多种模式)

Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的,而且跟Hadoop集群的搭建流程也很相似,只是没有Hadoop集群那么多的配置文件要修改。本文中,我将详细介绍Spark的本地模式、Standalone模式(伪分布)、Standalone模式(全分布)、Yarn集群模式的搭建。 搭建环境:CentOS7+jdk8+spark2.3.2+hadoop2.7 L...

Spark入门详解(一)-Spark简介

大数据
Spark入门详解(一)-Spark简介

简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提供可交互查询方式,提供近实时处理方式,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala提供一个称为Actor的并行模型,其中...

Scala入门详解(四)

大数据
Scala入门详解(四)

IO1234567891011121314151617181920212223/** * IO * Scala进行文件写操作,直接用的都是java中的I/O类(java.io.File) */object TestIO { def main(args: Array[String]): Unit = { // 写操作// val wr...

Scala入门详解(二)

大数据
Scala入门详解(二)

类类的声明与定义1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950/** * 类的声明与定义 * Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。 * 在面向对象的语言有两个重要的概念:类(class)...

Scala入门详解(一)

大数据
Scala入门详解(一)

简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 优点 优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。 速度快:Scala语言表达能力强,一行代码抵得上Java多行,开发速度快;Scala是静态编译的...

HBase入门详解(三)

大数据
HBase入门详解(三)

环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase的MapReduce操作注意事项: Map继承TableMapper Reduce继承TableReducer 最后Reduce输出的value的类型是Mutation 通过TableMapReduceUtil来设置相关信息 实例:统计行键并添加到指定列族123...

HBase入门详解(一)

大数据
HBase入门详解(一)

环境:centos7+hadoop3.0.3+hbase2.0.1+jdk8 简介什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE...

×
  • {title}