老熟女激烈的高潮_日韩一级黄色录像_亚洲1区2区3区视频_精品少妇一区二区三区在线播放_国产欧美日产久久_午夜福利精品导航凹凸

重慶分公司,新征程啟航

為企業(yè)提供網(wǎng)站建設(shè)、域名注冊(cè)、服務(wù)器等服務(wù)

SparkRDD的內(nèi)容有哪些

這篇文章將為大家詳細(xì)講解有關(guān)Spark RDD的內(nèi)容有哪些,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

目前創(chuàng)新互聯(lián)公司已為成百上千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)頁空間、網(wǎng)站運(yùn)營(yíng)、企業(yè)網(wǎng)站設(shè)計(jì)、城北網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。

一.添加jar包運(yùn)行

1.官網(wǎng)位置

點(diǎn)擊步驟:
Spark Programming Guide
Linking with Spark
版本要對(duì)應(yīng)和集群上

Spark RDD的內(nèi)容有哪些

2.idea 引入cdh可能報(bào)紅線

Spark RDD的內(nèi)容有哪些

3.原因

idea 引入cdh版的hadoop等包可能報(bào)紅線,
因?yàn)槟J(rèn)idea引的倉(cāng)庫(kù)是apache的所以有紅線

4.解決:

Spark RDD的內(nèi)容有哪些

5.上傳本地文件

公司中是用rz
ftp工具不用因?yàn)橹虚g有跳板機(jī),ftp不好用

二.提交程序到集群

1.官網(wǎng)案例

Spark RDD的內(nèi)容有哪些

2.測(cè)試代碼

 spark-submit \
  --class test.Demo2 \
  --master local[2] \
  /demo/original-sparkrdd-1.0-SNAPSHOT.jar \
  hdfs://s202:9000/input/*   \
  hdfs://s202:9000/result

3../spark-submit —help  查看幫助

4.MR也可以基于內(nèi)存但是是有限的,有局限性

Spark RDD的內(nèi)容有哪些

三.SparkRDD

1.RDD

彈性分布式數(shù)據(jù)集
彈性體現(xiàn)在計(jì)算上,分布式的時(shí)候計(jì)算可以容錯(cuò),通過機(jī)制進(jìn)行修復(fù),準(zhǔn)確是體現(xiàn)在計(jì)算層面上

2.RDD五大特點(diǎn)

*  - A list of partitions
*  - A function for computing each split
每個(gè)函數(shù)作用每個(gè)分區(qū)上
對(duì)RDD計(jì)算就是對(duì)分區(qū)進(jìn)行計(jì)算
split 如分區(qū)partitions
*  - A list of dependencies on other RDDs
RDDA 是加載其余是轉(zhuǎn)化的
RDDA-RDDB-RDDC
*  - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
優(yōu)化時(shí)候用的多
*  - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
*    an HDFS file)
preferred locations(類似多個(gè)副本)  數(shù)組在哪在那計(jì)算性能好,不用移動(dòng)數(shù)據(jù)
對(duì)每個(gè)分片計(jì)算會(huì)有一組
計(jì)算每個(gè)分片會(huì)有多個(gè)副本
窄依賴容錯(cuò)不是對(duì)所有分區(qū)進(jìn)行重新計(jì)算,對(duì)父類,寬依賴不通
Resilient Distributed Dataset (RDD)在上面五個(gè)特點(diǎn)完美體現(xiàn)
切分,副本,計(jì)算,分布式

3.RDD五大特點(diǎn)和源碼中的對(duì)應(yīng)關(guān)系

關(guān)鍵計(jì)算傳什么參數(shù),對(duì)應(yīng)第二個(gè)特點(diǎn),必須傳個(gè)分片的
def compute(split: Partition, context: TaskContext): Iterator[T]
對(duì)應(yīng)RDD第一點(diǎn)
protected def getPartitions: Array[Partition]
對(duì)應(yīng)第三點(diǎn)
protected def getDependencies: Seq[Dependency[_]] = deps
計(jì)算必須拿到PreferredLocations 在什么位置
第五點(diǎn)
protected def getPreferredLocations(split: Partition): Seq[String] = Nil
對(duì)應(yīng)第四點(diǎn)
@transient val partitioner: Option[Partitioner] = None
類似于JdbcRDD什么都要繼承RDD

4.RDD宏觀概念

Spark RDD的內(nèi)容有哪些

三.RDD的操作

1.官網(wǎng)

Spark RDD的內(nèi)容有哪些

2.重點(diǎn)解釋不要硬編碼

Spark RDD的內(nèi)容有哪些

3.官網(wǎng)解釋

appName 是一個(gè)作業(yè)的名字
也可以不寫,不要硬編碼,提交時(shí)寫,用時(shí)間拼接,可以知道提交的是哪個(gè)
The appName parameter is a name for your application to show on the cluster UI.
master 是你連接集群的方式
master is a Spark, Mesos or YARN cluster URL, or a special “l(fā)ocal” string to run in local mode.
但是,運(yùn)行一個(gè)集群你不要硬編碼,不要代碼中設(shè)置master,提交的時(shí)候設(shè)置
In practice, when running on a cluster, you will not want to hardcode master in the program, 
而是要用spark-submit 提交,
but rather launch the application with spark-submit and receive it there.
測(cè)試就用local 就可以了
However, for local testing and unit tests, you can pass “l(fā)ocal” to run Spark in-process.

4.stop注意

Only one SparkContext may be active per JVM. You must stop() the active SparkContext before creating a new one.
一個(gè)jvm只能有一個(gè)SparkContext,想要在啟動(dòng)別個(gè),必須關(guān)閉stop()

5.yarn在spark需要配置的參數(shù)

在spark-env  中配置HADOOP_CONF_DIR or YARN_CONF_DIR ,指向hadoop的etc/hadoop的

Spark RDD的內(nèi)容有哪些

6.spark-shell 的使用,主要用jars

spark-shell 底層也是調(diào)用spark-submit 腳本運(yùn)行

Spark RDD的內(nèi)容有哪些

四.RDD的創(chuàng)建方式

1.RDD創(chuàng)建一

 Typically you want 2-4 partitions for each CPU in your cluster. 不浪費(fèi)
因?yàn)檫@樣設(shè)置省著cpu空閑,一個(gè)分區(qū)一個(gè)CPU可能空閑,浪費(fèi)
task多不處理小文件多,要合并,調(diào)優(yōu)

Spark RDD的內(nèi)容有哪些

2.RDD創(chuàng)建方式一 解釋

加載外部集合用parallelize方法,用的少,最好有個(gè)CPU對(duì)應(yīng)幾個(gè)分區(qū),
防止空閑浪費(fèi)資源,一個(gè)task一個(gè)分區(qū)

3.RDD創(chuàng)建二

Spark RDD的內(nèi)容有哪些

4.解釋

加載外部數(shù)據(jù)源,本地文件,HDFS,hbase等

5.RDD注意事項(xiàng)筆記:官網(wǎng)

Spark RDD的內(nèi)容有哪些

5.解釋

1.如果你要使用本地文件,那你又多少個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都要有這個(gè)文件,否則
找不到,standalone   也一樣,一般用不到
2.全部的輸入方式包括文件,支持目錄,壓縮,通配符
3.textFile() 有第二個(gè)參數(shù),分區(qū),默認(rèn)有個(gè)block一個(gè)分區(qū),你可以調(diào)的
更高,不可以比block更少
這個(gè)可以調(diào)優(yōu)
1.wholeTextFiles() 返回key,value  key是路徑,value值
2序列化測(cè)試
3.saveAsTextFile() 保存

關(guān)于Spark RDD的內(nèi)容有哪些就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。


本文題目:SparkRDD的內(nèi)容有哪些
轉(zhuǎn)載來源:http://www.xueling.net.cn/article/pdseoj.html

其他資訊

在線咨詢
服務(wù)熱線
服務(wù)熱線:028-86922220
TOP
主站蜘蛛池模板: 欧美成人午夜免费影院 | 少妇无码太爽了在线观看免费视频 | 九色porny视频国产网曝 | 日日碰日日摸日日澡视频播放 | 亚洲爆乳无码精品AAA片蜜桃 | 九九99久久精品在免费线bt | 黄色网址免费在线播放 | 国产999精品久久久久久绿帽 | 成人国产午夜在线观看 | 99视频精品免视看 | 校花高潮抽搐冒白浆 | 女人色极品影院 | 亚州国产 | 在线成人精品国产区免费 | 国产在线观看午夜福利片 | 欧美国产麻豆 | 99热亚洲 | 四虎午夜 | 久久久久久久久久久爱 | 精品国产乱码久久久久久108 | 好大好深好猛好爽视频拍拍拍 | 亚洲精品成人AV在线观看爽翻 | 欧美第8页 | 免费观看黄网站在线播放 | 18男女无套免费视频 | 日本精品啪啪一区二区三区 | 色窝窝免费播放视频在线 | 69式视频免费观看 | 亚洲熟妇AV一区二区三区 | 97超碰蝌蚪网人人做人人爽 | 91插插插插插插 | 免费精品国产福利片 | 男人视频网站 | 少妇多水XXXX色情免费 | 日韩a无码av一区二区三区 | 四虎影视最新免费版 | 视频在线?看91 | 精品久久久中文字幕 | 簧片在线观看 | 女人高潮叫床三级视频 | 国产毛毛片一区二区三区四区 |