R语言数据分析

企业采购书卡请拔打028-83157469,团购书目请拨打19113427458(法定工作日9:00-17:00)

定  价 :
¥ 69.00
文 轩 价 :
¥58.00 (8.4折)
库  存 :
库存紧张
作  者 :
(美)盖尔盖伊·道罗齐(Gergely Daroczi) 著;潘怡
所属分类 :
图书 > 行业职业 > 计算机 > 数据库
促销活动 :
❤图书音像单笔满100减30!(特价图书、电子书除外)
❤老客户回馈,积分换礼券,购书更实惠
❤图书订单非新疆西藏地区包邮,新疆西藏运费每单20元
详情 >>
购买数量 :
- +
立即购买
服  务 :
由"文轩网"直接销售和发货,并提供售后服务
正品低价| 闪电发货|货到付款| 高效退换货
¥58.00 (8.4折)
  • 作 者: (美)盖尔盖伊·道罗齐(Gergely Daroczi) 著;潘怡
  • 出版社: 机械工业出版社
  • 出版时间:2016-10-01
  • 开 本:16开
  • 页 数:279
  • 印刷时间:2016-10-01
  • 字 数:无
  • 装 帧:平装
  • 语  种:中文
  • 版 次:1
  • 印 次:1
  • I S B N:9787111547952

目录

译者序
前言
第1章你好,数据!1
1.1导入一个大小合适的文本文件2
1.2文本文件编译测试平台5
1.3导入文本文件的子集6
1.4从数据库中导入数据8
1.4.1搭建测试环境9
1.4.2MySQL和MariaDB11
1.4.3PostgreSQL15
1.4.4Oracle数据库17
1.4.5访问ODBC数据库22
1.4.6使用图形化用户面连接数据库23
1.4.7其他数据库后台24
1.5从其他统计系统导入数据25
1.6导入Excel电子表格26
1.7小结26
第2章从Web获取数据28
2.1从Internet导入数据集29
2.2其他流行的在线数据格式32
2.3从HTML表中读取数据37
2.4从其他在线来源获取数据39
2.5使用R包与数据源API交互42
2.5.1Socrata的开源数据API43
2.5.2金融API44
2.5.3使用Quandl获取时序数据45
2.5.4Google文档和统计数据46
2.5.5在线搜索的发展趋势47
2.5.6天气历史数据48
2.5.7其他在线数据源49
2.6小结49
第3章数据筛选和汇总50
3.1去掉多余的数据50
3.1.1快速去掉多余数据52
3.1.2快速去掉多余数据的其他方法53
3.2聚集54
3.2.1使用基础的R命令实现快速聚集55
3.2.2方便的辅助函数56
3.2.3高性能的辅助函数57
3.2.4使用data.table完成聚集59
3.3测试59
3.4汇总函数62
3.5小结64
第4章数据重构65
4.1矩阵转置65
4.2基于字符串匹配实现数据筛选66
4.3数据重排序67
4.4dplyr包和data.table包的比较70
4.5创建新变量70
4.5.1内存使用分析71
4.5.2同时创建多个变量72
4.5.3采用dplyr包生成新变量73
4.6数据集合并74
4.7灵活地实现数据整形76
4.7.1将宽表转换为长表77
4.7.2将长表转换为宽表78
4.7.3性能调整80
4.8reshape包的演变80
4.9小结81
第5章建模82
5.1多元模型的由来83
5.2线性回归及连续预测变量83
5.2.1模型解释83
5.2.2多元预测85
5.3模型假定87
5.4回归线的拟合效果90
5.5离散预测变量92
5.6小结95
第6章线性趋势直线外的知识96
6.1工作流建模96
6.2逻辑回归97
6.2.1数据思考100
6.2.2模型拟合的好处101
6.2.3模型比较102
6.3计数模型102
6.3.1泊松回归103
6.3.2负二项回归107
6.3.3多元非线性模型107
6.4小结115
第7章非结构化数据116
7.1导入语料库116
7.2清洗语料库118
7.3展示语料库的高频词121
7.4深度清洗121
7.4.1词干提取122
7.4.2词形还原124
7.5词条关联说明124
7.6其他一些度量125
7.7文档分段126
7.8小结128
第8章数据平滑129
8.1缺失值的类型和来源129
8.2确定缺失值130
8.3忽略缺失值131
8.4去掉缺失值134
8.5在分析前或分析中筛选缺失值136
8.6填补缺失值136
8.6.1缺失值建模138
8.6.2不同填补方法的比较140
8.6.3不处理缺失值141
8.6.4多重填补141
8.7异常值和孤立点141
8.8使用模糊方法144
8.9小结146
第9章从大数据到小数据147
9.1充分性测试148
9.1.1正态性148
9.1.2多元变量正态性149
9.1.3变量间的依赖关系152
9.1.4KMO和Barlett检验154
9.2主成分分析157
9.2.1PCA算法158
9.2.2确定成分数159
9.2.3成分解释161
9.2.4旋转方法164
9.2.5使用PCA检测孤立点167
9.3因子分析170
9.4主成分分析和因子分析172
9.5多维尺度分析173
9.6小结176
第10章分类和聚类177
10.1聚类分析178
10.1.1层次聚类178
10.1.2确定簇的理想个数181
10.1.3k均值聚类183
10.1.4可视化聚类185
10.2潜类别模型186
10.2.1潜类别分析187
10.2.2LCR模型189
10.3判别分析189
10.4逻辑回归192
10.5机器学习算法194
10.5.1k近邻算法195
10.5.2分类树197
10.5.3随机森林200
10.5.4其他算法201
10.6小结203
第11章基于R的社会网络分析204
11.1装载网络数据204
11.2网络中心性度量206
11.3网络数据的展现207
11.3.1交互网络图210
11.3.2绘制层次图211
11.3.3使用R包来解释包的依赖关系212
11.4更多网络分析资源212
11.5小结213
第12章时序数据分析214
12.1创建时序对象214
12.2展现时序数据215
12.3季节性分解217
12.4Holt-Winters筛选218
12.5自回归积分滑动平均模型220
12.6孤立点检测221
12.7更复杂的时序对象224
12.8高级时序数据分析225
12.9小结225
第13章我们身边的数据226
13.1地理编码226
13.2在空间中展示数据点228
13.3找出数据点的多边形重叠区域230
13.4绘制主题图232
13.5围绕数据点绘制

作者简介

盖尔盖伊·道罗齐(GergelyDar6czi),统计学副教授,社会学专业博士。他是一位狂热的R包开发者,也rapporter.net网站的创始人及CTO,该网站为人们提供基于R的报表和Web应用程序。他现在就职于洛杉矶网站,担任首席R语言开发及研究的数据专家。

内容简介

本书共分为14章,重点探讨了数据预处理的方法,包括数据获取、筛选、重构、建模、平滑以及降维,本书还介绍了分类和聚类等几种主要的数据分析方法,很后探讨了网络数据、时序数据、空间数据及社交媒体数据等一些特殊类型数据的分析处理。

价格说明

定价:为出版社全国统一定价;

文轩价:为商品的销售价,是您最终决定是否购买商品的依据;受系统缓存影响,最终价格以商品放入购物车后显示的价格为准;

关于新广告法声明

新广告法规定所有页面信息中不得出现绝对化用词和功能性用词。

本店非常支持新广告法,但为了不影响消费者正常购买,页面明显区域本店已在排查修改,对于不明显区域也将会逐步排查并修改,我们此郑重声明:本店所有页面上的绝对化用词与功能性用词在此声明全部失效,不作为赔付理由。涉及“教育部声明”中的商品,均不代表教育部指定、推荐的具体版本,仅代表该商品的内容为指定、推荐书目。因极限用词引起的任何形式的商品赔付,本店不接收且不妥协。希望消费者理解并欢迎联系客服帮助完善,也请职业打假人士高抬贵手。