数据挖掘:方法与应用(数据分析系列教材)
¥23.00定价
作者: 吕晓玲 谢邦昌
出版时间:2008-12
出版社:中国人民大学出版社
- 中国人民大学出版社
- 9787300099705
- 1-1
- 257446
- 2008-12
内容简介
随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验,数据挖掘方法应运而生。数据挖掘是一个多学科的交叉研究领域,不仅大学里的学术人员在研究它,商业公司的专家和技术人员也在密切地关注它和使用它;它不仅涉及人工智能领域以及统计学的应用,而且涉及数据库的管理和使用。从技术上来讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、*的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。从商业应用来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模式化的处理,从中提取辅助商业决策的关键性数据。
本书第1章对数据挖掘进行了概述,包括数据挖掘的定义、重要性、功能、步骤和常用方法等。第2章和第3章介绍了两种数据挖掘中常用的指导的学习算法、关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的放在一类,而不同类之间尽量做到有较大的不同。第4章和第5章介绍了两种数据挖掘中常用的指导的学习算法、决策树和神经网络。它们处理的数据含有独立的需要预测或随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验,数据挖掘方法应运而生。数据挖掘是一个多学科的交叉研究领域,不仅大学里的学术人员在研究它,商业公司的专家和技术人员也在密切地关注它和使用它;它不仅涉及人工智能领域以及统计学的应用,而且涉及数据库的管理和使用。从技术上来讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、*的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。从商业应用来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模式化的处理,从中提取辅助商业决策的关键性数据。
本书第1章对数据挖掘进行了概述,包括数据挖掘的定义、重要性、功能、步骤和常用方法等。第2章和第3章介绍了两种数据挖掘中常用的指导的学习算法、关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的放在一类,而不同类之间尽量做到有较大的不同。第4章和第5章介绍了两种数据挖掘中常用的指导的学习算法、决策树和神经网络。它们处理的数据含有独立的需要预测或
分类的变量,它们的目的就是寻找一些自变量的函数或算法对数据进行准确的预测或分类。决策树方法在对数据处理的过程中,将数据按照树状结构分成若干分枝形成决策规则;神经网络在一定程度上模仿了人脑神经系统处理信息,存储以及检索的功能,它是一个非线性的映射系统。第6章和第7章介绍了两种数据挖掘中常用的传统统计的方法,回归分析和时间序列。回归分析是寻找自变量和因变量之间关系的预测模型,包括线性回归和Logistic回归;时间序列分析,顾名思义,是处理以时间为序的观测数据的方法。本书的一个特点是不仅对上述方法作了理论的阐述,还结合案例分析讲述了如何应用STATISTICA软件实现上述方法对数据的分析,是一本理论和实践相结合的理论性和应用性都很强的书。显示全部信息
本书第1章对数据挖掘进行了概述,包括数据挖掘的定义、重要性、功能、步骤和常用方法等。第2章和第3章介绍了两种数据挖掘中常用的指导的学习算法、关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的放在一类,而不同类之间尽量做到有较大的不同。第4章和第5章介绍了两种数据挖掘中常用的指导的学习算法、决策树和神经网络。它们处理的数据含有独立的需要预测或随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验,数据挖掘方法应运而生。数据挖掘是一个多学科的交叉研究领域,不仅大学里的学术人员在研究它,商业公司的专家和技术人员也在密切地关注它和使用它;它不仅涉及人工智能领域以及统计学的应用,而且涉及数据库的管理和使用。从技术上来讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、*的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。从商业应用来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模式化的处理,从中提取辅助商业决策的关键性数据。
本书第1章对数据挖掘进行了概述,包括数据挖掘的定义、重要性、功能、步骤和常用方法等。第2章和第3章介绍了两种数据挖掘中常用的指导的学习算法、关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的放在一类,而不同类之间尽量做到有较大的不同。第4章和第5章介绍了两种数据挖掘中常用的指导的学习算法、决策树和神经网络。它们处理的数据含有独立的需要预测或
分类的变量,它们的目的就是寻找一些自变量的函数或算法对数据进行准确的预测或分类。决策树方法在对数据处理的过程中,将数据按照树状结构分成若干分枝形成决策规则;神经网络在一定程度上模仿了人脑神经系统处理信息,存储以及检索的功能,它是一个非线性的映射系统。第6章和第7章介绍了两种数据挖掘中常用的传统统计的方法,回归分析和时间序列。回归分析是寻找自变量和因变量之间关系的预测模型,包括线性回归和Logistic回归;时间序列分析,顾名思义,是处理以时间为序的观测数据的方法。本书的一个特点是不仅对上述方法作了理论的阐述,还结合案例分析讲述了如何应用STATISTICA软件实现上述方法对数据的分析,是一本理论和实践相结合的理论性和应用性都很强的书。显示全部信息
目录
第1章 数据挖掘概述 1.1 数据挖掘定义 1.1.1 数据挖掘的技术定义 1.1.2 数据挖掘的商业定义 1.2 数据挖掘的重要性及意义 1.3 数据挖掘功能 1.4 数据挖掘步骤和标准 1.4.1 数据挖掘步骤 1.4.2 数据挖掘需要的人员 1.5 数据挖掘常用方法 1.5.1 数据挖掘的对象 1.5.2 数据挖掘的常用方法 练习题第2章 关联规则 2.1 关联规则介绍 2.2 关联规则种类 2.2.1 一般意义上的关联规则 2.2.2 带有时间性的序列关联分析 2.3 关联规则算法 2.3.1 普通的关联规则算法 2.3.2 序列关联规则算法 2.4 S7ATISTICA中的关联规则 2.5 案例分析 练习题第3章 聚类分析 3.1 聚类分析介绍 3.2 距离定义 3.2.1 点之间的距离 3.2.2 类之间的距离 3.3 聚类分析算法 3.3.1 层次聚类 3.3.2 基于划分的聚类 3.3.3 EM聚类 3.4 STATISTICA中的聚类分析 3.5 案例分析 练习题第4章 决策树建模 4.1 决策树介绍 4.1.1 决策树的基本知识 4.1.2 决策树的应用和发展趋势 4.2 树的建模过程 4.2.1 数据要求 4.2.2 树的生长 4.2.3 有效性和风险性 4.2.4 属性选择 4.3 S7ATISTICA中的决策树 4.4 案例分析 练习题第5章 神经网络建模 5.1 神经网络介绍 5.2 神经网络的基本概念和原理 5.2.1 基本组成单元 5.2.2 神经网络的训练过程 5.2.3 基本的神经网络模型 5.3 STATISTICA中的神经网络模型 5.4 案例分析 练习题第6章 回归分析 6.1 回归分析介绍 6.2 线性回归模型 6.2.1 模型的建立及未知参数的估计 6.2.2 回归方程与回归参数的检验及变量的选择问题 6.2.3 回归诊断和决定系数 6.3 1ogistic回归模型 6.3.1 1ogistic回归模型的建立 6.3.2 1ogistic回归模型的参数估计 6.3.3 1ogistic回归模型的检验及诊断 6.3.4 1ogistic回归模型结果的解释 6.3.5 1ogistic回归模型的扩展 6.4 STATISTICA中的回归 6.5 案例分析 练习题第7章 时间序列 7.1 时间序列介绍 7.2 时间序列算法 7.2.1 传统时间序列分析 7.2.2 ARIMA模型 7.3 STATISTICA中的时间序列 7.4 案例分析 练习题参考文献