高性能分布式计算系统开发与实现 基于Hadoop、Scalding和Spark
【作 者】(印)K. G.斯里尼瓦沙(K. G. Srinivasa),(印)阿尼尔·库马尔·穆帕拉(Anil Kumar Muppalla)著
【丛书名】数据科学与工程技术丛书
【形态项】 234
【出版项】 北京:机械工业出版社 , 2018.07
【ISBN号】978-7-111-60153-1
【中图法分类号】TP274
【主题词】分布式数据处理
【参考文献格式】 (印)K. G.斯里尼瓦沙(K. G. Srinivasa),(印)阿尼尔·库马尔·穆帕拉(Anil Kumar Muppalla)著. 高性能分布式计算系统开发与实现 基于Hadoop、Scalding和Spark. 北京:机械工业出版社, 2018.07.
内容提要:
本书分两部分,共8章,介绍了如何使用开源工具和技术开发与实现大规模分布式处理系统,涵盖构建高性能分布式计算系统的方法和最佳实践。第一部分(第1-4章)介绍了高性能分布式计算编程的基础知识,包括分布式系统、Hadoop入门、Spark入门、Scalding入门等;第二部分(第5-8章)给出了使用Hadoop、Spark、Scalding的案例研究,涉及数据聚类、数据分类、回归分析、推荐系统等。