R数据科学实战:工具详解与案例分析

admin 2022年11月13日 196次浏览

R数据科学实战:工具详解与案例分析

(副标题):无 ;

(作者): 邬书豪 刘健(R语言) ;

内容简介:

​ 6.1 data.table简介
data.table包的诞生颇具传奇色彩。第一作者Matt Dowle原本是S-PLUS用户(一款与R语言同样源于S语言的面向对象数据分析商业软件),但是因为商业化的S-PLUS更新滞后,拒绝公开函数源代码等原因,Matt在2002年时开始使用R语言。在2004年他加入另外一家公司后,data.table包的雏形诞生了,其可通过中括号对数据框进行子集数据选取并直接进行数据运算。Matt实现了自己最初想要简化代码的夙愿。2008年,data.table包正式问世。其简洁到令人发指的语句可能也因此而令一部分用户望而却步。具体来说,当用户将data.frame类型数据设置成data.table类型后,只需要考虑三个部分:行、列和分组。只需这三个部分便可以轻松处理GB级别的数据,并将数据处理时间提高数百倍。随着越来越多的R专家用户意识到data.table包的无限潜力并贡献新的想法,再加上Matt本身在StackOverflow平台上积极地回答关于该包的相关问题,今天的data.table包是StackOverflow上所有R包中第四活跃的,同时也位列GitHub最受欢迎的的R包之中。
data.table既是R包的名字,同时也是一种数据格式,作为data.frame的升级版,data.table格式的数据集完全继承了data.frame格式的所有特性,也就是说,能够执行data.frame的函数都可以用来处理data.table格式。

目录预览:

​ R数据科学实战:工具详解与案例分析
第1章 数据导入工具
1.1 utils——数据读取基本功
1.1.1 read.csv/csv2——逗号分隔数据读取
1.1.2 read.delim/delim2——特定分隔符数据读取
1.1.3 read.table——任意分隔符数据读取
1.2 readr——进阶数据读取
1.3 utils vs readr——你喜欢哪个?
1.4 readxl——Excel文件读取
1.5 DBI——数据库数据查询、下载
1.6 pdftools——PDF文件
1.7 jsonlite——JSON文件
1.8 foreign package统计软件数据
1.9 本章小结
第2章 数据清理工具
2.1 基本概念
2.2 tibble包——数据集准备
2.2.1 为什么使用tibble
2.2.2 创建tbl格式
2.2.3 as_tibble——转换已有格式的数据集
........


[EPUB下载]