900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > Spark Streaming之DStream的基本工作原理

Spark Streaming之DStream的基本工作原理

时间:2021-08-24 01:12:09

相关推荐

Spark Streaming之DStream的基本工作原理

目录

一:Spark Streaming 的含义

二:DStream 的含义

三:相关中间件的了解

一:Spark Streaming 的含义

图片

Spark Engine:英 ['endʒɪn] n. 引擎,发动机;机车,火车头;工具

二:DStream 的含义

DStream,英文全称为Discretized Stream,中文翻译为“离散流”,它代表了一个持续不断的数据流

DStream中的每个RDD都包含了一个时间段内的数据

底层的RDD的transformation(map、reduce、join、window)操作,其实,还是由Spark Core的计算引擎来实现的

DStream进行算子计算的流程图:

三:相关中间件的了解

消息中间件:

Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket

Flume:

英 [fluːm] n. 水道;笕槽;引水槽

Flume是一个分布式、一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

Flume的灵魂(Agent)就是采集(source)、聚合(channel)、转移(sink)。

Twitter:实时舆情分析

ZeroMQ:ØMQ是一个消息系统,或者如果你愿意“面向消息中间件”。它用于各种场景,比如金融服务、嵌入式系统、学术研究及航天航空。

Kinesis:Kinesis 是 AWS 的一项用于收集实时流数据的云服务,类似于 Kafka。Kinesis 收集到的数据可以用于多个方面,例如存到 S3,发到 EMR 作进一步数据分析等等

dashboard:商业智能仪表盘(business intelligence dashboard,BI dashboard)的简称

它是一般商业智

能都拥有的实现数据可视化的模块,是向企业展示度量信息和关键业务指标(KPI)现状的数据虚拟化工具.BI的基础就是OLAP了,dashboard也必须基于OLAP技术拥有图形上的数据分析功能

RPC框架

指远程过程调用

情景:

两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法

由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据

目的:RPC就是要像调用本地的函数一样去调远程函数

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。