注册 登录 进入教材巡展
#
  • #

出版时间:2019-04

出版社:机械工业出版社

以下为《文本数据管理与分析:信息检索与文本挖掘的实用导论》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111611769
  • 1版
  • 283851
  • 47229528-6
  • 平装
  • 16开
  • 2019-04
  • 479
  • 319
  • 工学
  • 软件工程
  • 计算机通信类
  • 本科
作者简介
翟成祥(ChengXiang Zhai)
伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文,现在是《ACM Transactions on Knowledge Discovery from Data》副主编,曾任《Information Processing and Management》副主编、《ACM Transactions on Information Systems》副主编以及《Information Retrieval Journal》编委,并担任多个国际会议的程序委员会主席和大会主席。他是ACM会士、ACM杰出科学家并荣获多项荣誉,包括ACM SIGIR 2004最佳论文、ACM SIGIR 2014时间考验奖、Alfred P. Sloan研究奖金、IBM教师奖、HP创新研究项目奖、微软超越搜索研究奖 以及美国青年科学家和工程师总统奖。
肖恩·马森(Sean Massung)
伊利诺伊大学香槟分校计算机科学专业博士生,此前他在此分别获得学士和硕士学位。他是META的联合发明者并在其所有研究中使用META。他是多门课程的指导者,包括CS225“数据结构与编程原则”CS410“文本信息系统”以及CS591txt“文本挖掘研讨”。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。
查看全部
内容简介

本书以文本数据处理为核心,从理论到实践介绍了文本数据管理与分析的关键问题,广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包(例如META)的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及如何试验数据和为具体应用任务来改进一些算法。



具体内容:


l 文本信息获取与挖掘基础:统计与概率论、信息论等相关理论和文本数据理解技术。


l 文本信息获取关键技术:信息检索的模型、实现和评价,网络搜索以及推荐系统等。


l 文本挖掘关键技术:文档分类,文档聚类,文本摘要,主题分析,观点挖掘与情感分析,文本与结构化数据联合分析等。


l 文本管理和分析系统:整合信息检索与文本分析技术,结合配套软件工具META,构建统一的、人机结合的文本管理和分析系统。




主要特点:


l ·内容深入浅出,理论实践密切结合,可作为高等院校计算机科学或相关专业本科生、研究生信息检索与文本挖掘课程的教材。


l ·主题丰富,体系完整,逻辑清晰,便于与各种课程体系结合,可作为高等院校相关专业教师的参考书。


l ·兼顾广度与深度,覆盖经典模型与方法并提供丰富的扩展阅读文献,可作为专业科研人员与工业界人士的参考书或技术手册。



目录
Text Data Management and Analysis:A Practical
Introduction to Information Retrieval and Text Mining
中文版序
译者序
前言
作者简介
第一部分 概述和背景
第1章 绪论2
 1.1 文本信息系统的功能4
 1.2 文本信息系统的概念框架5
 1.3 本书结构安排7
 1.4 如何使用本书8
 书目说明和延伸阅读9
第2章 背景11
 2.1 概率和统计基础11
  2.1.1 联合概率和条件概率12
  2.1.2 贝叶斯法则13
  2.1.3 抛硬币和二项分布14
  2.1.4 最大似然参数估计14
  2.1.5 贝叶斯参数估计15
  2.1.6 概率模型及其应用16
 2.2 信息论17
 2.3 机器学习19
 书目说明和延伸阅读20
 练习20
第3章 文本数据理解22
 3.1 自然语言处理的历史和研究现状23
 3.2 自然语言处理和文本信息系统24
 3.3 文本表示26
 3.4 统计语言模型28
 书目说明和延伸阅读31
 练习31
第4章 META:一个面向文本数据管理和分析的统一工具箱33
 4.1 设计原则33
 4.2 设置META34
 4.3 架构34
 4.4 用META分词35
 4.5 相关工具箱37
 练习38
第二部分 文本数据获取
第5章 文本数据获取概述44
 5.1 获取模式:拉取与推送44
 5.2 多模式互动获取45
 5.3 文本检索47
 5.4 文本检索与数据库检索48
 5.5 文档选择与文档排序49
 书目说明和延伸阅读50
 练习51
第6章 检索模型52
 6.1 概述52
 6.2 检索函数的一般形式53
 6.3 向量空间检索模型54
  6.3.1 向量空间模型实例化55
  6.3.2 位向量表示的表现56
  6.3.3 改进的模型实例57
  6.3.4 TF变换60
  6.3.5 文档长度规范化62
  6.3.6 基本向量空间模型的进一步改进64
  6.3.7 小结65
 6.4 概率检索模型65
  6.4.1 查询似然检索模型67
  6.4.2 文档语言模型的平滑69
  6.4.3 具体的平滑方法72
 书目说明和延伸阅读76
 练习76
第7章 反馈78
 7.1 向量空间模型中的反馈79
 7.2 语言模型中的反馈81
 书目说明和延伸阅读84
 练习84
第8章 搜索引擎实现86
 8.1 分词器86
 8.2 索引器87
 8.3 打分器90
  8.3.1 逐个词项排序90
  8.3.2 逐个文档排序90
  8.3.3 过滤文档91
  8.3.4 索引分片91
 8.4 反馈实现92
 8.5 压缩92
  8.5.1 按位压缩93
  8.5.2 块压缩94
 8.6 高速缓存95
  8.6.1 LRU缓存95
  8.6.2 DBLRU缓存96
 书目说明和延伸阅读96
 练习97
第9章 搜索引擎评价98
 9.1 引言98
  9.1.1 要度量什么98
  9.1.2 Cranfield评价方法98
 9.2 集合检索的评价100
  9.2.1 准确率和召回率100
  9.2.2 F度量:准确率和召回率的结合101
 9.3 有序列表的评价102
 9.4 基于多级别判断标准的评价106
 9.5 评价中的实际问题107
 书目说明和延伸阅读110
 练习110
第10章 网络搜索112
 10.1 网络爬虫113
 10.2 网页索引113
 10.3 链接分析117
  10.3.1 PageRank算法118
  10.3.2 HITS算法121
 10.4 排序学习122
 10.5 网络搜索的未来125
 书目说明和延伸阅读127
 练习127
第11章 推荐系统130
 11.1 基于内容的推荐131
 11.2 协同过滤134
 11.3 推荐系统的评价137
 书目说明和延伸阅读138
 练习138
第三部分 文本数据分析
第12章 文本数据分析概述142
 12.1 动机:文本数据分析的应用142
 12.2 文本与非文本数据:人类作为主观传感器143
 12.3 文本挖掘任务概览145
第13章 词关联挖掘148
 13.1 词关联挖掘的基本思想149
 13.2 聚合关系的发现150
 13.3 组合关系的发现153
 13.4 词关联挖掘的评价159
 书目说明和延伸阅读160
 练习160
第14章 文本聚类162
 14.1 聚类技术概述163
 14.2 文档聚类164
  14.2.1 凝聚层次聚类法165
  14.2.2 K-均值165
 14.3 词项聚类167
  14.3.1 语义关联的词语167
  14.3.2 点互信息169
  14.3.3 先进方法169
 14.4 文本聚类的评价172
 书目说明和延伸阅读173
 练习173
第15章 文本分类175
 15.1 引言175
 15.2 文本分类方法概述176
 15.3 文本分类问题177
 15.4 文本分类的特征177
 15.5 分类算法179
  15.5.1 k-近邻180
  15.5.2 朴素贝叶斯181
  15.5.3 线性分类器182
 15.6 文本分类的评价183
 书目说明和延伸阅读184
 练习184
第16章 文本摘要185
 16.1 文本摘要技术概述185
 16.2 抽取式文本摘要186
 16.3 抽象式文本摘要187
 16.4 文本摘要的评价189
 16.5 文本摘要的应用189
 书目说明和延伸阅读190
 练习190
第17章 主题分析192
 17.1 用词项表示的主题193
 17.2 用单词分布表示的主题196
 17.3 挖掘文本中的一个主题198
  17.3.1 最简单的主题模型:一元语言模型199
  17.3.2 添加背景语言模型201
  17.3.3 混合模型的参数估计205
  17.3.4 混合模型的行为206
  17.3.5 期望最大化209
 17.4 概率潜在语义分析214
 17.5 PLSA的扩展及潜在狄利克雷分布220
 17.6 主题分析的评价223
 17.7 主题模型的总结224
 书目说明和延伸阅读224
 练习225
第18章 观点挖掘与情感分析226
 18.1 情感分类228
 18.2 有序回归230
 18.3 潜在方面评分分析232
 18.4 观点挖掘与情感分析的评价238
 书目说明和延伸阅读238
 练习238
第19章 文本与结构化数据的联合分析240
 19.1 引言240
 19.2 上下文文本挖掘242
 19.3 上下文概率潜在语义分析244
 19.4 以社交网络作为上下文的主题分析249
 19.5 以时间序列作为上下文的主题分析252
 19.6 小结256
 书目说明和延伸阅读256
 练习257
第四部分 统一的文本数据管理和分析系统
第20章 面向一个统一的文本管理和分析系统260
 20.1 文本分析操作262
 20.2 系统架构264
 20.3 META作为一个统一系统265
附录A 贝叶斯统计266
附录B 期望最大化271
附录C KL-散度和狄利克雷先验平滑275
参考文献277
索引287
Baidu
map