Python和NLTK自然语言处理
(副标题):无 ;
(作者): [印度] 尼天·哈登尼亚、雅各布·帕金斯、 迪蒂·乔普拉、尼什·斯乔希 ;
内容简介:
第1章 自然语言处理简介
本书将从自然语言处理(NLP)简介开始讲述。语言是我们日常生活的核心部分,处理与语言相关的任何问题都是非常有趣的。我希望此书能够让你一嗅NLP的芬芳,激励你去了解更令人惊奇的NLP概念,并鼓励你开发一些具有挑战性的NLP应用。
研究人类语言的过程称为NLP。深入研究语言的人称为语言学家,而“计算语言学家”这个专有名词适用于应用计算研究语言处理的人。从本质上讲,计算语言学家是深入了解语言的计算机科学家,计算语言学家可以运用计算技能,对语言的不同方面进行建模。计算语言学家解决的是语言理论方面的问题,NLP只不过是计算语言学的应用。
NLP更多探讨的是应用计算机,处理不同语言的细微差别,以及使用NLP技术构建现实世界的应用。在实际情景下,NLP类似于教孩子学语言。一些最常见的任务(如理解单词和句子,形成在语法和结构上正确的句子)对人类而言是很自然。在NLP领域,把这样的一些任务转化为标记解析(tokenization)、组块(chunking)、词性标注(part of speech tagging)、解析(parsing)、机器翻译(machine translation)、语音识别(speech recognition),这些任务中的大部分依然是计算机所面临的最严峻的挑战。本书假设读者都有一些NLP方面的背景,因此更多探讨的是NLP的实践方面。本书期望读者,对编程语言有一些最基本的理解,并对NLP和语言感兴趣。
本章主要内容如下。
NLP及其相关概念。
安装Python、NLTK和其他库的方法。
编写一些非常基本的Python和NLTK代码片段的方法。
如果你从来没有听说过NLP这个词,那么请花一些时间来阅读这里提到的任何一本书籍,只要阅读最初几章即可。至少要快速阅读一些与NLP相关的维基百科网页。
由Danie
目录预览:
Python和NLTK自然语言处理
模块1 NLTK基础知识
第1章 自然语言处理简介
第2章 文本的整理和清洗
第3章 词性标注
第4章 对文本的结构进行语法分析
第5章 NLP应用
第6章 文本分类
第7章 网络爬取
第8章 与其他Python库一同使用NLTK
第9章 使用Python进行社交媒体挖掘
第10章 大规模的文本挖掘
模块2 使用Python 3的NLTK 3进行文本处理
第1章 标记文本和WordNet的基础
第2章 替换和校正单词
第3章 创建语料库
第4章 词性标注
第5章 提取组块
第6章 转换组块与树
第7章 文本分类
........