Fork me on GitHub

Spark最佳实践(下)

简介

本书是Spark的实战指南,全书共8章,前四章介绍Spark部署,工作机制和内核,后四章通过实战项目介绍Spark SQL,Spark Streaming,Spark GraphX和Spark MLlib功能模块。

这里介绍后四章的内容。

第五章 Spark SQL和数据仓库

是是非非之谓士

介绍Spark SQL,可以代替Hive,用于搭建一个企业级的数据仓库。案例基于淘宝的电商数据建立电商数据仓库,并以日常运营工作为例,通过电商数据库分析电商运营中的各类问题。

第六章 Spark 流式计算

章介绍Spark实时流式计算,类似于Storm,但吞吐量方面更有优势。案例是基于一个站点的Web日志建立一个类似百度统计的实时统计系统,是各种实时系统典型的参考例子。

第七章 Spark 图计算

介绍Spark的图计算。案例基于新浪微博2000万的关系链数据,讲解了如果利用图计算来实现社交关系链的挖掘,比如闺蜜的发现、粉丝群体的发现等。

第八章 Spark MLlib

介绍Spark的机器学习库。案例基于某个搜索引擎的点击日志,建立了一个搜索广告点击率预估系统。广告点击率预估是各家互联网系统的核心系统,公开的实战项目不多。

二级目录

三级目录

本文标题:Spark最佳实践(下)

文章作者:Chaos

发布时间:2018年03月16日 - 14:03

最后更新:2018年03月16日 - 03:03

原始链接:http://www.lovepanda.tk/2018/03/16/Book-Spark最佳实践(下)/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。