Fork me on GitHub

Book-Spark教程

简介

Spark是一个解决大规模数据集运算分析的计算引擎,知其然更要知其所以然,深入了解编程模型,RDD原理,解析spark内核,能够让我们在一个更高的角度看程序运行,数据流动,而且现在对批处理有了其他的需求,比如sturcture stream实现的流处理,MLib实现的机器学习的分类聚类算法,对这种更高层次的spark应用的学习有助于更好的发挥spark的潜力,安装配置不值一提,具体应用才是画龙点睛。

spark 教程 讲的很透彻,已经刷了两遍,跟着做了一些实际操作,每一遍都有新的理解,学得越多越觉得自己懂得太少,奋斗吧少年!

深坑待填,关键是理论性东西写起来真的墨迹啊

scala基础与实践

scala是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。
scala用java开发,运行在java虚拟机上并兼容java程序,spark就是用scala开发的,用scala写spark的程序极为合适,其次是python和java。

不去学具体的使用技巧,不了解程序的内部原理,那么spark就只是一个软件,深入研究并自己写程序去测试spark的性能,它才会成为数据操控者手中的利剑,剑锋所指,一切真相无所遁形!额(⊙﹏⊙),说人话就是:”用熟了之后做数据挖掘能手脚麻利一点”,hiahiahia~~~

二级目录

三级目录

spark编程模型

深入spark内核

DAG - DAGScheduler - TaskScheduler - worker源码

再看RDD

分区 A list of partitions

依赖 lineage

函数 function

最佳位置 prefer

分区策略 hash

优化

spark streaming

一站搞定

spark上运行机器学习,算法实现

shark多语言编程

本文标题:Book-Spark教程

文章作者:Chaos

发布时间:2018年02月04日 - 11:02

最后更新:2018年03月20日 - 05:03

原始链接:http://www.lovepanda.tk/2018/02/04/Book-Spark教程/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。