简介
Spark是一个解决大规模数据集运算分析的计算引擎,知其然更要知其所以然,深入了解编程模型,RDD原理,解析spark内核,能够让我们在一个更高的角度看程序运行,数据流动,而且现在对批处理有了其他的需求,比如sturcture stream实现的流处理,MLib实现的机器学习的分类聚类算法,对这种更高层次的spark应用的学习有助于更好的发挥spark的潜力,安装配置不值一提,具体应用才是画龙点睛。
spark 教程 讲的很透彻,已经刷了两遍,跟着做了一些实际操作,每一遍都有新的理解,学得越多越觉得自己懂得太少,奋斗吧少年!
深坑待填,关键是理论性东西写起来真的墨迹啊
scala基础与实践
scala是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。
scala用java开发,运行在java虚拟机上并兼容java程序,spark就是用scala开发的,用scala写spark的程序极为合适,其次是python和java。不去学具体的使用技巧,不了解程序的内部原理,那么spark就只是一个软件,深入研究并自己写程序去测试spark的性能,它才会成为数据操控者手中的利剑,剑锋所指,一切真相无所遁形!额(⊙﹏⊙),说人话就是:”用熟了之后做数据挖掘能手脚麻利一点”,
hiahiahia~~~
二级目录
三级目录
spark编程模型
深入spark内核
DAG - DAGScheduler - TaskScheduler - worker源码
再看RDD
分区 A list of partitions
依赖 lineage
函数 function
最佳位置 prefer
分区策略 hash
优化
spark streaming
一站搞定