文本挖掘:基于R语言的整洁工具
(副标题):无 ;
(作者): Julia Silge , David Robinson ;
内容简介:
作者简介
Julia Silge是Stack Overflow公司的数据科学家,她主要分析复杂数据集,喜欢与各种人交流技术主题。她获得了天体物理学的博士学位,喜欢Jane Austen的作品,还喜欢绘制漂亮的图表。
David Robinson是Stack Overflow公司的数据科学家,他已经获得普林斯顿大学的定量和计算生物学博士学位,擅长开发开源的R包,比如broom、gganimate、fuzzyjoin和widyr软件包。
目录预览:
文本挖掘:基于R语言的整洁工具
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
........