注册 登录 进入教材巡展
#
  • #

出版时间:2019-01

出版社:清华大学出版社

以下为《大数据智能分析》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302531173
  • 1-1
  • 284047
  • 48210276-1
  • 16开
  • 2019-01
  • 工学
  • 计算机科学与技术
  • 计算机
  • 本科
作者简介

张华平,男,汉族,北京理工大学副教授,博士,研究生导师,知名汉语分词系统ICTCLAS创始人,北京市海量语言信息处理与云计算工程中心大数据搜索与挖掘实验室主任,中国互联网协会大数据工作委员会(筹)执行主任,中国中文信息学会社会媒体处理专业委员会副秘书长,北京市顺义区政府专家咨询委员会委员,第三届全国社会媒体处理大会程序委员会主席,同时担任辽宁师范大学客座教授,首都师范大学兼职副教授;中国计算机学会青年科技论坛YOCSEF委员,中国计算机学会普及工委委员,国家自然科学基金函评专家,北京市重点产业知识产权联盟专家、同时担任《计算机学报》、《计算机研究与发展》、中国科技论文在线等杂志的特邀评审专家。2005年博士毕业于中科院计算所,研究方向为:大数据搜索与挖掘、自然语言处理、信息检索与信息安全。曾先后获得2016年度新疆自治区科技进步奖二等奖,2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。发表《大数据搜索与挖掘》、《大数据大家谈》、《信息检索:算法与启发式规则》、《自然语言理解》等专译著4部。

查看全部
内容简介
大数据智能是大数据、人工智能与自然语言处理等学科交叉融合的关键技术。本书主要讲述大数据智能的框架平台、理论算法、关键技术和应用实践: 在大数据与人工智能方面主要讲述了大数据智能概述、大数据技术平台与架构、传统机器学习与深度学习算法;在自然语言处理方面详细讲解了大数据精准搜索、汉语分词、新词发现、文本分类聚类、情感分析等当前热门的自然语言处理关键技术;在应用实践方面,本书进一步提供了自主研发的NLPIR大数据智能分析工具平台,具体介绍警情大数据、网络赌博、微博挖掘、看图说话等多个实际的大数据应用项目,也引入《红楼梦》前后作者分析、二手房房价、歌词生成等有意思的课程实践案例。
本书立足于作者近20年的前沿研究进展和工程实践,结合北京理工大学“大数据分析与应用”研究生课程讲授经验,体系完整,内容深入浅出,理论与实践并重,吸收了当前的技术前沿成果,同时突出原创的研究成果。本书可作为大数据、人工智能与自然语言处理方向的科研人员、高校研究生与本科生的教材,也可作为大数据智能方向的工程技术人员和爱好者的参考书。
目录

目录


第1章大数据智能概述/1


1.1数据的智能演化过程/1


1.2大数据/2


1.2.1大数据的概念/2


1.2.2大数据的特征/2


1.2.3大数据带来的决策方式的革命/3


1.2.4大数据面临的挑战及其对应的技术概览/5


1.2.5科学的大数据观/9


1.2.6大数据架构下的人才需求及产业结构/10


1.3人工智能/12


1.4自然语言处理/14第2章大数据技术平台与架构/16


2.1大数据技术概览/16


2.1.1大数据技术架构/16


2.1.2云计算/17


2.2Hadoop、Spark生态系统/20


2.2.1Hadoop生态系统/20


2.2.2Spark生态系统/26


2.2.3Spark和Hadoop的性能对比/31


2.3大数据挖掘与可视化工具/34第3章传统机器学习与数据挖掘/40


3.1机器学习介绍/40


3.2关联规则挖掘/41


3.2.1Apriori算法/43


3.2.2FPgrowth算法/43〖2〗〖4〗大数据智能分析目录〖3〗3.3分类/45


3.3.1SVM/45


3.3.2决策树/52


3.3.3朴素贝叶斯/56


3.3.4K近邻/59


3.4聚类/60


3.4.1基于划分的聚类方法/60


3.4.2基于层次的聚类方法/65


3.4.3基于密度的聚类方法/71


3.4.4聚类案例: 用户细分模型/74


3.5数据挖掘相关工具/74


3.5.1数据获取工具/75


3.5.2分词工具/77


3.5.3分类聚类工具/79


3.5.4Python调用方法/79第4章经典深度学习算法与平台/81


4.1神经网络基础/82


4.1.1神经元/82


4.1.2从神经元到神经网络/82


4.2循环神经网络/84


4.2.1RNN基本概念/84


4.2.2RNN的长期依赖问题与LSTM/85


4.2.3深度RNN和双向RNN/88


4.3卷积神经网络/89


4.4序列到序列模型/90


4.5注意力模型/91


4.6生成对抗网络/93


4.7TensorFlow计算图框架/95


4.7.1数据流图/95


4.7.2TensorFlow的特征/95


4.7.3官方入门教程/96


4.8PyTorch深度学习框架/103


4.8.1PyTorch是什么/103


4.8.2自动求导: 自动微分/104


4.8.3神经网络/105第5章信息检索与大数据搜索/110


5.1概述/110


5.2JZSearch大数据搜索引擎系统架构/110


5.3大数据精准搜索的基本技术/112


5.3.1索引字段类型/112


5.3.2索引词项的设计/113


5.3.3索引压缩技术/113


5.3.4内存交换/115


5.3.5增量索引/116


5.3.6数据库检索/117


5.4大数据精准搜索语法/118


5.4.1JZSearch排序算法/118


5.4.2JZSearch结果格式/119


5.4.3JZSearch检索语法说明/119


5.5JZSearch大数据精准搜索应用案例/123


5.5.1中国邮政集团邮址垂直搜索/124


5.5.2标准文档搜索引擎/124


5.5.3内网文档的知识搜索门户/125


5.5.4商品比价搜索/125


5.5.5维吾尔文搜索/125第6章汉语分词/127


6.1概述/127


6.2汉语分词的困难性/129


6.3基于机械匹配的汉语分词算法/132


6.3.1词典匹配法/132


6.3.2N最短路径法/136


6.4基于统计语言模型的汉语分词算法/137


6.4.1N元语言模型/138


6.4.2互信息模型/138


6.4.3最大熵模型/140


6.5NLPIRICTCLAS: 基于层叠隐马尔可夫模型的汉语分词算法/141


6.5.1层次隐马尔可夫模型/141


6.5.2基于类的隐马尔可夫分词算法/143


6.5.3N最短路径的切分排歧策略/145


6.6基于双向循环神经网络与条件随机场的词法分析/146


6.6.1概述/146


6.6.2基于双向循环神经网络的序列标注/146


6.6.3融合条件随机场的深度神经网络模型/148


6.7实验与分析/149


6.7.1评估方法/149


6.7.2实验分析1/149


6.7.3实验分析2/153第7章命名实体识别/157


7.1命名实体识别定义/157


7.2命名实体识别的研究主体/158


7.3命名实体识别的特点及难点/158


7.4命名实体识别的研究技术路径/159


7.5基于角色标注的命名实体识别/159


7.6实验与分析/162第8章新词发现/163


8.1基于规则的研究方法/164


8.1.1规则抽取方法/165


8.1.2规则过滤方法/165


8.2基于统计模型的研究方法/166


8.2.1凝固度/166


8.2.2信息熵/166


8.2.3新词IDF/167


8.3面向社会媒体的开放领域新词发现/167


8.3.1引言/167


8.3.2新词发现/168


8.3.3实验/171第9章文本分类与聚类/175


9.1文本预处理/175


9.2文本表示模型/176


9.2.1传统布尔检索与扩展布尔检索模型/177


9.2.2向量空间模型/177


9.2.3概率检索模型/180


9.2.4语言模型/181


9.3文本特征选择方法/182


9.3.1信息增量/183


9.3.2卡方统计/183


9.3.3交叉熵/183


9.4文本分类概述/184


9.5文本聚类概述/187


9.5.1聚类算法体系/187


9.5.2半监督聚类/188第10章话题发现算法/191


10.1多语语义串自动发现/195


10.2多语语义关键特征挖掘/197


10.2.1关键特征抽取/197


10.2.2单个文档Top N关键特征挖掘/198


10.3Top N热点话题发现和关联归并/198


10.3.1Top N热点话题发现/198


10.3.2话题归并/200


10.4多语文本话题发现与关联归类实验验证/201第11章情感分析/203


11.1概述/203


11.2情感分类/205


11.3应用/208


11.3.1用户评论分析与决策/208


11.3.2舆情监控/208


11.3.3信息预测/209


11.4情感词发现与极性权重自动计算算法/209


11.4.1引言/209


11.4.2情感词典构建模型/211


11.4.3实验/213


11.5基于树模型的无监督情感分析系统/216


11.5.1实现方法/216


11.5.2系统架构及流程/217


11.5.3实验分析及结论/219


11.6基于深度神经网络的短文本情感倾向性分析/221


11.6.1语料库建设/221


11.6.2词袋模型与文本建模/223


11.6.3基于Softmax和深度神经网络的短文本情感分析算法/225


11.6.4实验设计及实验结果/229第12章自动摘要/234


12.1概述/234


12.2基于关键词提取的自动摘要/238


12.3面向主题的自动摘要/244


12.4基于主题模型与信息熵的中文文档自动摘要技术研究/247


12.4.1主题模型/248


12.4.2信息熵/250


12.4.3句子信息熵的计算方法/250


12.4.4算法介绍/250


12.4.5实验结果/251


12.5自动摘要应用场景分析及大数据搜索与挖掘软件应用示例/252第13章大数据智能应用案例/254


13.1公安警情大数据挖掘/254


13.2网络赌博信息文本挖掘/257


13.2.1Web网页信息选择与提取/257


13.2.2中文分词及词性标注处理/258


13.2.3特征提取/259


13.2.4基于网络赌博信息的数据挖掘/260


13.2.5网络赌博信息可视化展示/262


13.3领导人支持信息挖掘/265


13.4微博博主的特征与行为大数据挖掘/268


13.4.1介绍/268


13.4.2宏观特征大数据挖掘/270


13.4.3实验与分析/275


13.4.4微博博主的价值观自动评估方法/275


13.5看图说话: 基于MaskRCNN的图片中文描述生成器/277


13.5.1自下而上的注意力机制在图像描述中的应用/278


13.5.2BottomUpAttention和TopDownAttention图像描述模型/280


13.5.3DenseAttention图像描述模型/281


13.5.4基于语义控制的长短时记忆模型/281


13.5.5模型训练相关说明及结果分析/283


13.5.6模型测试相关说明及结果分析/284


13.5.7测试结果分析/286第14章大数据智能课程经典作业汇编/288


14.1《红楼梦》前后作者同一性分析/288


14.2党的十九大报告语义智能分析/293


14.3文章风格对比: 方文山与汪峰/294


14.4智慧旅游大数据应用/295


14.5某大厦电力数据挖掘/298


14.6杭州市二手房房价分析/301


14.6.1概述/301


14.6.2房价分析系统案例介绍/301


14.6.3本例设计与实现/304


14.7数据挖掘在股票分析预测中的应用/306


14.7.1概述/306


14.7.2股票分析预测方法/307


14.7.3神经网络在股票分析预测应用中的研究现状/307


14.7.4实验结果/309


14.8基于TensorFlow的歌词自动生成/310


14.8.1算法说明/310


14.8.2实验结果/311


14.9基于LSTM的购物评论分类/312


14.9.1获取语料库比分词/312


14.9.2词向量的转换/313


14.9.3建立向量和单词列表/313


14.9.4将句子转换成序号矩阵/314


14.9.5模型训练/314



Baidu
map