简介
本书是Spark的实战指南,全书共8章,前四章介绍Spark部署,工作机制和内核,后四章通过实战项目介绍Spark SQL,Spark Streaming,Spark GraphX和Spark MLlib功能模块。
这里介绍后四章的内容。
第五章 Spark SQL和数据仓库
是是非非之谓士
介绍Spark SQL,可以代替Hive,用于搭建一个企业级的数据仓库。案例基于淘宝的电商数据建立电商数据仓库,并以日常运营工作为例,通过电商数据库分析电商运营中的各类问题。
第六章 Spark 流式计算
章介绍Spark实时流式计算,类似于Storm,但吞吐量方面更有优势。案例是基于一个站点的Web日志建立一个类似百度统计的实时统计系统,是各种实时系统典型的参考例子。
第七章 Spark 图计算
介绍Spark的图计算。案例基于新浪微博2000万的关系链数据,讲解了如果利用图计算来实现社交关系链的挖掘,比如闺蜜的发现、粉丝群体的发现等。
第八章 Spark MLlib
介绍Spark的机器学习库。案例基于某个搜索引擎的点击日志,建立了一个搜索广告点击率预估系统。广告点击率预估是各家互联网系统的核心系统,公开的实战项目不多。