简介

Spark是一个解决大规模数据集运算分析的计算引擎，知其然更要知其所以然，深入了解编程模型，RDD原理，解析spark内核，能够让我们在一个更高的角度看程序运行，数据流动，而且现在对批处理有了其他的需求，比如sturcture stream实现的流处理，MLib实现的机器学习的分类聚类算法，对这种更高层次的spark应用的学习有助于更好的发挥spark的潜力，安装配置不值一提，具体应用才是画龙点睛。

spark 教程讲的很透彻，已经刷了两遍，跟着做了一些实际操作，每一遍都有新的理解，学得越多越觉得自己懂得太少，奋斗吧少年！

深坑待填，关键是理论性东西写起来真的墨迹啊

scala基础与实践

scala是一门多范式的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。
scala用java开发，运行在java虚拟机上并兼容java程序，spark就是用scala开发的，用scala写spark的程序极为合适，其次是python和java。

不去学具体的使用技巧，不了解程序的内部原理，那么spark就只是一个软件，深入研究并自己写程序去测试spark的性能，它才会成为数据操控者手中的利剑，剑锋所指，一切真相无所遁形！额(⊙﹏⊙)，说人话就是:”用熟了之后做数据挖掘能手脚麻利一点”，hiahiahia~~~

二级目录

三级目录

spark编程模型

深入spark内核

DAG - DAGScheduler - TaskScheduler - worker源码

再看RDD

分区 A list of partitions

依赖 lineage

函数 function

最佳位置 prefer

分区策略 hash

优化

spark streaming

一站搞定

Book-Spark教程

简介