Spark入门详解(四)-网页排名算子开发实例

大数据
Spark入门详解(四)-网页排名算子开发实例

思路分析:156791160691.此操作需要用到两个pairRDD,第一个pairRDD,key:当前页面,value:当前页面所含链接页面的合集。2.第二个pairRDD,key:当前页面,value:当前页面的权重3.两个pairRDD在循环中根据key进行连接操作,计算每次循环返回后各个页面的权重值4.根据权重值的大小可知页面的排名 开发代码:1234567891...

Maven的pom.xml配置详解

IDE
Maven的pom.xml配置详解

本次主要介绍了如何在IntelliJ IDEA中正确配置pom.xml文件,通常至少要包含三个部分:项目坐标和模型版本、引入依赖的jar包、构建项目的配置。关于Maven的安装和环境配置可以参考我之前的文章:Maven入门学习 模型版本和项目坐标 模型版本modelVersion:pom文件的模型版本 项目坐标指的是项目在maven资源库的坐标,通过groupId + ...

Spark入门详解(三)-RDD编程

大数据
Spark入门详解(三)-RDD编程

RDD简介RDD是弹性分布式数据集,完全弹性的,如果数据丢失一部分还可以重建。有自动容错、位置感知调度和可伸缩性。 RDD共包含两种计算方式,一种是transformations转换,一种是actions操作,每种计算方式包含一些常用的方法。注:Transformations转换是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Tr...

Spark入门详解(二)-Spark运行原理

大数据
Spark入门详解(二)-Spark运行原理

Spark运行过程Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。 Spark大致运行流程: 1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等) 2、Cluster manager分配应用程序执行需要的资源,在Wo...

Spark环境搭建(多种模式)

大数据
Spark环境搭建(多种模式)

Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的,而且跟Hadoop集群的搭建流程也很相似,只是没有Hadoop集群那么多的配置文件要修改。本文中,我将详细介绍Spark的本地模式、Standalone模式(伪分布)、Standalone模式(全分布)、Yarn集群模式的搭建。 搭建环境:CentOS7+jdk8+spark2.3.2+hadoop2.7 L...

Spark入门详解(一)-Spark简介

大数据
Spark入门详解(一)-Spark简介

简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提供可交互查询方式,提供近实时处理方式,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala提供一个称为Actor的并行模型,其中...

Scala入门详解(四)

大数据
Scala入门详解(四)

IO1234567891011121314151617181920212223/** * IO * Scala进行文件写操作,直接用的都是java中的I/O类(java.io.File) */object TestIO { def main(args: Array[String]): Unit = { // 写操作// val wr...

Scala入门详解(三)

大数据
Scala入门详解(三)

集合List1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495...

Scala入门详解(二)

大数据
Scala入门详解(二)

类类的声明与定义1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950/** * 类的声明与定义 * Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。 * 在面向对象的语言有两个重要的概念:类(class)...

Scala入门详解(一)

大数据
Scala入门详解(一)

简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 优点 优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。 速度快:Scala语言表达能力强,一行代码抵得上Java多行,开发速度快;Scala是静态编译的...

×
  • {title}