Spark入门详解（二）-Spark运行原理

大数据

Spark运行过程Spark应用程序以进程集合为单位在分布式集群上运行，通过driver程序的main方法创建的SparkContext对象与集群交互。 Spark大致运行流程： 1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源（cpu、内存等） 2、Cluster manager分配应用程序执行需要的资源，在Wo...

Spark环境搭建（多种模式）

大数据

Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的，而且跟Hadoop集群的搭建流程也很相似，只是没有Hadoop集群那么多的配置文件要修改。本文中，我将详细介绍Spark的本地模式、Standalone模式（伪分布）、Standalone模式（全分布）、Yarn集群模式的搭建。搭建环境：CentOS7+jdk8+spark2.3.2+hadoop2.7 L...

Spark入门详解（一）-Spark简介

大数据

简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提供可交互查询方式，提供近实时处理方式，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。 Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集（Scala提供一个称为Actor的并行模型，其中...

Scala入门详解（四）

大数据

IO1234567891011121314151617181920212223/** * IO * Scala进行文件写操作，直接用的都是java中的I/O类（java.io.File) */object TestIO { def main(args: Array[String]): Unit = { // 写操作// val wr...

Scala入门详解（三）

大数据

集合List1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495...

Scala入门详解（二）

大数据

类类的声明与定义1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950/** * 类的声明与定义 * Scala是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。 * 在面向对象的语言有两个重要的概念：类(class)...

Scala入门详解（一）

大数据

简介Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。优点优雅：这是框架设计师第一个要考虑的问题，框架的用户是应用开发程序员，API是否优雅直接影响用户体验。速度快：Scala语言表达能力强，一行代码抵得上Java多行，开发速度快；Scala是静态编译的...

HBase入门详解（三）

大数据

环境：centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase的MapReduce操作注意事项： Map继承TableMapper Reduce继承TableReducer 最后Reduce输出的value的类型是Mutation 通过TableMapReduceUtil来设置相关信息实例：统计行键并添加到指定列族123...

HBase入门详解（二）

大数据

环境：centos7+hadoop3.0.3+hbase2.0.1+jdk8 HBase开发测试代码准备1234567891011121314151617181920212223242526Configuration conf = null;ExecutorService pool = null;Connection conn = null;Admin admin = n...

HBase入门详解（一）

大数据

环境：centos7+hadoop3.0.3+hbase2.0.1+jdk8 简介什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBASE...

LousenJay's Blog

若闲小阁