Fork me on GitHub

Spark最佳实践(下)

发表于 2018-03-16 | 分类于技术

字数统计: 376 | 阅读时长 ≈ 1

简介

本书是Spark的实战指南，全书共8章，前四章介绍Spark部署，工作机制和内核，后四章通过实战项目介绍Spark SQL，Spark Streaming，Spark GraphX和Spark MLlib功能模块。

这里介绍后四章的内容。

第五章 Spark SQL和数据仓库

是是非非之谓士

介绍Spark SQL，可以代替Hive，用于搭建一个企业级的数据仓库。案例基于淘宝的电商数据建立电商数据仓库，并以日常运营工作为例，通过电商数据库分析电商运营中的各类问题。

第六章 Spark 流式计算

章介绍Spark实时流式计算，类似于Storm，但吞吐量方面更有优势。案例是基于一个站点的Web日志建立一个类似百度统计的实时统计系统，是各种实时系统典型的参考例子。

第七章 Spark 图计算

介绍Spark的图计算。案例基于新浪微博2000万的关系链数据，讲解了如果利用图计算来实现社交关系链的挖掘，比如闺蜜的发现、粉丝群体的发现等。

第八章 Spark MLlib

介绍Spark的机器学习库。案例基于某个搜索引擎的点击日志，建立了一个搜索广告点击率预估系统。广告点击率预估是各家互联网系统的核心系统，公开的实战项目不多。

二级目录

三级目录

本文标题:Spark最佳实践(下)

文章作者:Chaos

发布时间:2018年03月16日 - 14:03

最后更新:2018年03月16日 - 03:03

原始链接:http://www.lovepanda.tk/2018/03/16/Book-Spark最佳实践(下)/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际转载请保留原文链接及作者。

分享到：收藏夹复制网址邮件微信 QQ空间腾讯微博豆瓣一键分享更多