Hadoop数据分析

企业采购书卡请拔打028-83157469，团购书目请拨打19113427458（法定工作日9:00-17:00）

定　　价：: ¥ 69.00

文轩价：: ¥56.60 （8.2折）

库　　存：: 库存紧张

作　　者：: (美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著；王纯超译

所属分类：: 图书 > 行业职业 > 计算机 > 数据库

促销活动：: ❤图书音像单笔满100减30！(特价图书、电子书除外）; ❤老客户回馈，积分换礼券，购书更实惠
❤图书订单非新疆西藏地区包邮，新疆西藏运费每单20元详情 >>

购买数量：: - + 件

立即购买

服　　务：: 由"文轩网"直接销售和发货，并提供售后服务; 正品低价| 闪电发货|货到付款| 高效退换货

商品介绍

快速直达目录作者简介内容简介

¥56.60 （8.2折）

作　者： (美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著；王纯超译
出版社：人民邮电出版社
出版时间：2018-04-01
开　本：16开
页　数：211
印刷时间：2018-04-01
字　数：337千字
装　帧：平装
语　　种：中文
版　次：1
印　次：1
I S B N：9787115479648

前言ix
第一部分  分布式计算入门
第1章  数据产品时代2
1.1  什么是数据产品2
1.2  使用Hadoop构建大规模数据产品4
1.2.1  利用大型数据集4
1.2.2  数据产品中的Hadoop5
1.3  数据科学流水线和Hadoop生态系统6
1.4  小结8
第2章  大数据操作系统9
2.1  基本概念10
2.2  Hadoop架构11
2.2.1  Hadoop集群12
2.2.2  HDFS14
2.2.3  YARN15
2.3  使用分布式文件系统16
2.3.1  基本的文件系统操作16
2.3.2  HDFS文件权限18
2.3.3  其他HDFS接口19
2.4  使用分布式计算20
2.4.1  MapReduce：函数式编程模型20
2.4.2  MapReduce：集群上的实现22
2.4.3  不止一个MapReduce：作业链27
2.5  向YARN提交MapReduce作业28
2.6  小结30
第3章  Python框架和HadoopStreaming31
3.1  HadoopStreaming32
3.1.1  使用Streaming在CSV数据上运行计算34
3.1.2  执行Streaming作业38
3.2  Python的MapReduce框架39
3.2.1  短语计数42
3.2.2  其他框架45
3.3  MapReduce进阶46
3.3.1  combiner46
3.3.2  partitioner47
3.3.3  作业链47
3.4  小结50
第4章  Spark内存计算52
4.1  Spark基础53
4.1.1  Spark栈54
4.1.2  RDD55
4.1.3  使用RDD编程56
4.2  基于PySpark的交互性Spark59
4.3  编写Spark应用程序61
4.4  小结67
第5章  分布式分析和模式69
5.1  键计算70
5.1.1  复合键71
5.1.2  键空间模式74
5.1.3  pair与stripe78
5.2  设计模式80
5.2.1  概要81
5.2.2  索引85
5.2.3  过滤90
5.3  迈向第后一英里分析95
5.3.1  模型拟合96
5.3.2  模型验证97
5.4  小结98
第二部分  大数据科学的工作流和工具
第6章  数据挖掘和数据仓102
6.1  Hive结构化数据查询103
6.1.1  Hive命令行接口（CLI）103
6.1.2  Hive查询语言104
6.1.3  Hive数据分析108
6.2  HBase113
6.2.1  NoSQL与列式数据库114
6.2.2  HBase实时分析116
6.3  小结122
第7章  数据采集123
7.1  使用Sqoop导入关系数据124
7.1.1  从MySQL导入HDFS124
7.1.2  从MySQL导入Hive126
7.1.3  从MySQL导入HBase128
7.2  使用Flume获取流式数据130
7.2.1  Flume数据流130
7.2.2  使用Flume获取产品印象数据133
7.3  小结136
第8章  使用高级API进行分析137
8.1  Pig137
8.1.1  PigLatin138
8.1.2  数据类型142
8.1.3  关系运算符142
8.1.4  用户定义函数143
8.1.5  Pig小结144
8.2  Spark高级API144
8.2.1  SparkSQL146
8.2.2  DataFrame148
8.3  小结153
第9章  机器学习154
9.1  使用Spark进行可扩展的机器学习154
9.1.1  协同过滤156
9.1.2  分类161
9.1.3  聚类163
9.2  小结166
第10章  总结：分布式数据科学实战167
10.1  数据产品生命周期168
10.1.1  数据湖泊169
10.1.2  数据采集171
10.1.3  计算数据存储172
10.2  机器学习生命周期173
10.3  小结175
附录A  创建Hadoop伪分布式开发环境176
附录B  安装Hadoop生态系统产品184
术语表193
关于作者211
关于封面211

作者简介

本杰明·班福特（Benjamin Bengfort），数据科学家，目前正在马里兰大学攻读博士学位，方向为机器学习和分布式计算；熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。
珍妮·基姆（Jenny Kim），经验丰富的大数据工程师，不仅进行商业软件的开发，在学术界也有所建树，在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

内容简介

通过提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，第一部分从很好高的层次介绍分布式计算，讨论如何在集群上运行计算；第二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。

价格说明

定价：为出版社全国统一定价；

文轩价：为商品的销售价，是您最终决定是否购买商品的依据；受系统缓存影响，最终价格以商品放入购物车后显示的价格为准；

关于新广告法声明

新广告法规定所有页面信息中不得出现绝对化用词和功能性用词。

本店非常支持新广告法，但为了不影响消费者正常购买，页面明显区域本店已在排查修改，对于不明显区域也将会逐步排查并修改，我们此郑重声明：本店所有页面上的绝对化用词与功能性用词在此声明全部失效，不作为赔付理由。涉及“教育部声明”中的商品，均不代表教育部指定、推荐的具体版本，仅代表该商品的内容为指定、推荐书目。因极限用词引起的任何形式的商品赔付，本店不接收且不妥协。希望消费者理解并欢迎联系客服帮助完善，也请职业打假人士高抬贵手。