注册 登录 进入教材巡展
#
  • #

出版时间:2018-05

出版社:机械工业出版社

以下为《Python自然语言处理实战:核心技术与算法》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111597674
  • 1版
  • 262565
  • 44208983-5
  • 16开
  • 2018-05
  • 296
  • 工学
  • 计算机科学与技术
  • 计算机通信类
  • 本科
内容简介
自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。
本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是*、前明略数据和七牛云的资深专家。同时,本书也得到了*达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。
全书一共11章,在逻辑上分为2个部分:
*部分(第1、2、11章)
主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。
第二部分(第5-10章)
第3~5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。

自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。


本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是*、前明略数据和七牛云的资深专家。同时,本书也得到了*达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。


全书一共11章,在逻辑上分为2个部分:


*部分(第1、2、11章)


主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。


第二部分(第5-10章)


第3~5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。


第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。


第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。


第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。


第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。


第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。

显示全部信息
目录
序一序二前言第1章 NLP基础 11.1 什么是NLP 11.1.1 NLP的概念 11.1.2 NLP的研究任务 31.2 NLP的发展历程 51.3 NLP相关知识的构成 71.3.1 基本术语 71.3.2 知识结构 91.4 语料库 101.5 探讨NLP的几个层面 111.6 NLP与人工智能 131.7 本章小结 15第2章 NLP前置技术解析 162.1 搭建Python开发环境 162.1.1 Python的科学计算发行版——Anaconda 172.1.2 Anaconda的下载与安装 192.2 正则表达式在NLP的基本应用 212.2.1 匹配字符串 222.2.2 使用转义符 262.2.3 抽取文本中的数字 262.3 Numpy使用详解 272.3.1 创建数组 282.3.2 获取Numpy中数组的维度 302.3.3 获取本地数据 312.3.4 正确读取数据 322.3.5 Numpy数组索引 322.3.6 切片 332.3.7 数组比较 332.3.8 替代值 342.3.9 数据类型转换 362.3.10 Numpy的统计计算方法 362.4 本章小结 37第3章 中文分词技术 383.1 中文分词简介 383.2 规则分词 393.2.1 正向最大匹配法 393.2.2 逆向最大匹配法 403.2.3 双向最大匹配法 413.3 统计分词 423.3.1 语言模型 433.3.2 HMM模型 443.3.3 其他统计分词算法 523.4 混合分词 523.5 中文分词工具——Jieba 533.5.1 Jieba的三种分词模式 543.5.2 实战之高频词提取 553.6 本章小结 58第4章 词性标注与命名实体识别 594.1 词性标注 594.1.1 词性标注简介 594.1.2 词性标注规范 604.1.3 Jieba分词中的词性标注 614.2 命名实体识别 634.2.1 命名实体识别简介 634.2.2 基于条件随机场的命名实体识别 654.2.3 实战一:日期识别 694.2.4 实战二:地名识别 754.3 总结 84第5章 关键词提取算法 855.1 关键词提取技术概述 855.2 关键词提取算法TF/IDF算法 865.3 TextRank算法 885.4 LSA/LSI/LDA算法 915.4.1 LSA/LSI算法 935.4.2 LDA算法 945.5 实战提取文本关键词 955.6 本章小结 105第6章 句法分析 1066.1 句法分析概述 1066.2 句法分析的数据集与评测方法 1076.2.1 句法分析的数据集 1086.2.2 句法分析的评测方法 1096.3 句法分析的常用方法 1096.3.1 基于PCFG的句法分析 1106.3.2 基于最大间隔马尔可夫网络的句法分析 1126.3.3 基于CRF的句法分析 1136.3.4 基于移进–归约的句法分析模型 1136.4 使用Stanford Parser的PCFG算法进行句法分析 1156.4.1 Stanford Parser 1156.4.2 基于PCFG的中文句法分析实战 1166.5 本章小结 119第7章 文本向量化 1207.1 文本向量化概述 1207.2 向量化算法word2vec 1217.2.1 神经网络语言模型 1227.2.2 C&W模型 1247.2.3 CBOW模型和Skip-gram模型 1257.3 向量化算法doc2vec/str2vec 1277.4 案例:将网页文本向量化 1297.4.1 词向量的训练 1297.4.2 段落向量的训练 1337.4.3 利用word2vec和doc2vec计算网页相似度 1347.5 本章小结 139第8章 情感分析技术 1408.1 情感分析的应用 1418.2 情感分析的基本方法 1428.2.1 词法分析 1438.2.2 机器学习方法 1448.2.3 混合分析 1448.3 实战电影评论情感分析 1458.3.1 卷积神经网络 1468.3.2 循环神经网络 1478.3.3 长短时记忆网络 1488.3.4 载入数据 1508.3.5 辅助函数 1548.3.6 模型设置 1558.3.7 调参配置 1588.3.8 训练过程 1598.4 本章小结 159第9章 NLP中用到的机器学习算法 1609.1 简介 1609.1.1 机器学习训练的要素 1619.1.2 机器学习的组成部分 1629.2 几种常用的机器学习方法 1669.2.1 文本分类 1669.2.2 特征提取 1689.2.3 标注 1699.2.4 搜索与排序 1709.2.5 推荐系统 1709.2.6 序列学习 1729.3 分类器方法 1739.3.1 朴素贝叶斯Naive Bayesian 1739.3.2 逻辑回归 1749.3.3 支持向量机 1759.4 无监督学习的文本聚类 1779.5 文本分类实战:中文垃圾邮件分类 1809.5.1 实现代码 1809.5.2 评价指标 1879.6 文本聚类实战:用K-means对豆瓣读书数据聚类 1909.7 本章小结 194第10章 基于深度学习的NLP算法 19510.1 深度学习概述 19510.1.1 神经元模型 19610.1.2 激活函数 19710.1.3 感知机与多层网络 19810.2 神经网络模型 20110.3 多输出层模型 20310.4 反向传播算法 20410.5 最优化算法 20810.5.1 梯度下降 20810.5.2 随机梯度下降 20910.5.3 批量梯度下降 21010.6 丢弃法 21110.7 激活函数 21110.7.1 tanh函数 21210.7.2 ReLU函数 21210.8 实现BP算法 21310.9 词嵌入算法 21610.9.1 词向量 21710.9.2 word2vec简介 21710.9.3 词向量模型 22010.9.4 CBOW和Skip-gram模型 22210.10 训练词向量实践 22410.11 朴素Vanilla-RNN 22710.12 LSTM网络 23010.12.1 LSTM基本结构 23010.12.2 其他LSTM变种形式 23410.13 Attention机制 23610.13.1 文本翻译 23710.13.2 图说模型 23710.13.3 语音识别 23910.13.4 文本摘要 23910.14 Seq2Seq模型 24010.15 图说模型 24210.16 深度学习平台 24410.16.1 Tensorflow 24510.16.2 Mxnet 24610.16.3 PyTorch 24610.16.4 Caffe 24710.16.5 Theano 24710.17 实战Seq2Seq问答机器人 24810.18 本章小结 254第11章 Solr搜索引擎 25611.1 全文检索的原理 25711.2 Solr简介与部署 25811.3 Solr后台管理描述 26311.4 配置schema 26711.5 Solr管理索引库 27011.5.1 创建索引 27011.5.2 查询索引 27611.5.3 删除文档 27911.6 本章小结 281
Baidu
map