Atom+Asciidoctor+Antora环境搭建

计算机
Atom+Asciidoctor+Antora环境搭建

Atom简介Atom是github专门为程序员推出的一个跨平台文本编辑器。具有简洁和直观的图形用户界面,并有很多有趣的特点:支持CSS,HTML,JavaScript等网页编程语言。它支持宏,自动完成分屏功能,集成了文件管理器。 安装【windows7】1.下载官网链接2.安装3.配置环境变量path中添加C:\Users\Administrator\AppData\Lo...

kafka集群搭建

大数据
kafka集群搭建

Kafka单机模式1.解压tar -xvf kafka_2.11-0.8.0.0.tgz -C /home/hadoop/apps/ 2.配置环境变量vi ~/.bashrc12export KAFKA_HOME=/opt/software/kafka export PATH=$PATH:$KAFKA_HOME/bin source ~/.bashrc 3.启动...

如何免费下载各大数据库资源

涨知识
如何免费下载各大数据库资源

主要步骤: 支付宝内搜索并关注“浙江图书馆”的生活号,点击“服务”-》“服务大厅”-》“办理读者证(免费的,自定义读者证的密码)”,办理完读者证后可以去支付宝卡包查看读者证的卡号。 打开浙江图书馆的官网链接(浙江图书馆)用读者证的卡号和密码登录浙江图书馆,在右下角会有数据库推荐版块,里面有知网(CNKI)、维普、万方等数据库都可以免费访问和下载资源了~ps:偶尔可能404...

数栈-数据开发规范

大数据
数栈-数据开发规范

术语解释 ODS(Operational Data Store):操作型数据,即源数据,指结构与源系统基本保持一致的增量或全量数据。作为DW数据的一个数据准备区,同时又承担基础数据记录历史变化。 CDM(Common Data Model):通用数据模型(数据中间层),包含DWD和DWS。 DWD(Data Warehouse Detail):数据仓库明细层数据。 DWS...

数栈-离线数据开发学习笔记

大数据
数栈-离线数据开发学习笔记

离线任务开发离线任务开发模块主要是设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。 对象在数据开发阶段,DTinsightBatch提供了4种对象:任务、脚本、资源和函数。它们之间的项目关系如下图所示: 任务:数据开发的主要对象,包含周期属性和依赖关系,是数据计算的主要载体,支持多种类型的任务和节点适应不同场景,详情请参见任务类型。脚本:数...

数栈-数据集成学习笔记

大数据
数栈-数据集成学习笔记

简介数据集成模块是在各个存储单元之间执行数据交换的通道,具备分布式底层架构,稳定高效、弹性伸缩的特点,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了在DTinsightBatch进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightBatch,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL...

Spark入门详解(五)-DataFrame编程

大数据
Spark入门详解(五)-DataFrame编程

DataFrame简介DataFrame是一个分布式数据组织成命名列的集合。概念上相当于一个表在一个关系数据库。DataFrames可以由一系列广泛的来源,例如:结构化数据文件,hive,外部数据库,或现有的RDD。 在Spark中,DataFrame(SchemaRDD)是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。读取数据和执行查询都会返回Data...

Spark入门详解(四)-网页排名算子开发实例

大数据
Spark入门详解(四)-网页排名算子开发实例

思路分析:1.此操作需要用到两个pairRDD,第一个pairRDD,key:当前页面,value:当前页面所含链接页面的合集。2.第二个pairRDD,key:当前页面,value:当前页面的权重3.两个pairRDD在循环中根据key进行连接操作,计算每次循环返回后各个页面的权重值4.根据权重值的大小可知页面的排名 开发代码:123456789101112131415...

Maven的pom.xml配置详解

服务端
Maven的pom.xml配置详解

本次主要介绍了如何在IntelliJ IDEA中正确配置pom.xml文件,通常至少要包含三个部分:项目坐标和模型版本、引入依赖的jar包、构建项目的配置。关于Maven的安装和环境配置可以参考我之前的文章:Maven入门学习 模型版本和项目坐标 模型版本modelVersion:pom文件的模型版本 项目坐标指的是项目在maven资源库的坐标,通过groupId + ...

Spark入门详解(三)-RDD编程

大数据
Spark入门详解(三)-RDD编程

RDD简介RDD是弹性分布式数据集,完全弹性的,如果数据丢失一部分还可以重建。有自动容错、位置感知调度和可伸缩性。 RDD共包含两种计算方式,一种是transformations转换,一种是actions操作,每种计算方式包含一些常用的方法。注:Transformations转换是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Tr...

×
  • {title}