Spark提交参数说明和常见优化

  • 时间:
  • 浏览:1
  • 来源:神彩大发快3_彩神大发快3官方

博主微博:

spark提交任务常见的三种模式

1:local/local[K]

executor_cores

不宜为1!可是我 work 多多tcp连接 中多tcp连接 数过少,一般 2~4 共要。

参考:

1:http://www.cnblogs.com/haozhengfei/p/e570f24c43fa15f23ebb97929a1b7fe6.html

2:https://www.jianshu.com/p/4c584a3bac7d

注意:若使用的是本地文件前要在file路径前加:file://

增加每个executor的内存量,增加了内存量事先,对性能的提升,有三点:

此种模式下适合小批量数据在本地调试代码

以上可是我通过spark-submit来提交有4个 多任务

最近在搞有4个 多价格分类模型,虽说是分类,用的是kmeans算法,求出聚类中心,对每个价格进行级别定级。人太好说起来简单,但做起来却是并这么这么容易,不可是我可能性数据量大,在执行任务前要全部后会波特率问提可是我shuffle报错等。但在这整个过程中对scala编程,Spark rdd 机制,以及海量数据背景下对算法的认知全部后会很大的提升,你类事 篇文章主可是我总结你类事 Spark在shell 终端提交jar包任务的事先的相关知识,在后续文章会具体涉及到相关的”实战经历“。

executor_cores*num_executors

表示的是不不还能能并行执行Task的数目

不宜太小或这么来越多!一般不超过总队列 cores 的 25%,比如队列总 cores 1000,最大无须超过1000,最小不建议低于 40,除非日志量很小。

转载请注明出处:http://blog.csdn.net/gamer_gyt

driver-memory

driver 不做任何计算和存储,可是我挂接任务与yarn资源管理器和task交互,除非你是 spark-shell,可是我一般 1-2g

在提交任务时的2个重要参数

打开微信扫一扫,关注微信公众号【数据与算法联盟】

2:yarn-client/yarn-cluster

下边给有4个 多提交任务的样式

事先人太好MapReduce耗费时间,写有4个 多同等效果的Spark多多tcp连接 变快就能执行完,很长一段时间本人全部后会在本地的单机环境进行测试学习,这么来越多你类事 错误的认知就会更加深刻,但事实却无须这么,MR固然慢是可能性每一次操作数据都写在了磁盘上,大量的IO造成了时间和资源的浪费,可是我Spark是基于内存的计算引擎,相比MR,减少的是大量的IO,但并全部后会说给有4个 多Spark多多tcp连接 足够的资源,就还能能为所欲为了,在提交有4个 多spark多多tcp连接 时,不仅要考虑所在资源队列的总体情况表,前要考虑代码三种的高效性,要尽量除理大量的shuffle操作和action操作,尽量使用同有4个 多rdd。

可能性事先接触过Hadoop,对Spark也是了解你类事 皮毛,但上端隔了几时才重新使用spark,期间也产生过你类事 错误的认识。

Github:

executor_memory

一般 6~10g 共要,最大不超过20G,可是我会意味着 GC代价过低,或资源浪费严重。

会用spark,会调api和能用好spark是两回事,在进行开发的过程中,不仅要了解运行原理,前要了解业务,将共要的土辦法 和业务场景共要的结合在一块儿,不还能能发挥最大的价值。

进入spark的home目录,执行以下命令查看帮助