cl991036

管理员

注册日期2003-07-25
发帖数5913
QQ14265545
铜币29654枚
威望213点
贡献值0点
银元0个

加关注写私信

阅读：4569回复：11

数据库中的知识发现综述

楼主^#

更多发布于：2003-08-16 13:12

楼伟进1 孔繁胜1 曹永生2

（1浙江大学计算机系, 杭州 310027；2中国农业科学院品种资源研究所，北京 100081）

引言
由于计算机数据采集工具以及关系数据库技术的发展，目前各行业存储了大量的数据，航空航天、气象、医疗、农业等行业尤为突出。传统的数据分析手段难以应付，导致越来越严重的数据灾难，迫使决策者出现或是穷于应付，或是置之不理的事实。关系数据库提供的简单查询及报表生成功能，只能获得数据的表层信息，而不能获得数据属性的内在关系和隐含的信息，即淹没了包含的知识，造成了资源的浪费[1]。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用，有效解决数据丰富性及知识贫乏性的矛盾，需要新技术智能、自动地分析处理原始数据，促使了数据库中的知识发现（KDD, Knowledge Discovery in Database），也有人称为数据挖掘（Data Mining）技术的出现[2]。

文[8]中认为KDD是一个综合的过程，它包括数据录入、迭代求解、用户交互以及许多定制要求和决策设计等，而Data Mining只是KDD中的一个具体却是关键的步骤。数据库中的知识发现术语是在1989年的第一届KDD专题讨论会上被首次采用，它强调了知识是数据发现的最终产品。

这一研究领域兴起于八十年代初，它是一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。从数据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许多方面[3]-[5]。

1998年第四届知识发现与数据挖掘国际会议上不仅进行了学术讨论，并且有30多家软件公司展示了数据挖掘软件产品，在北美、欧洲等国得到较大应用。在我国，许多单位也已开始此项技术研究，但目前取得成功应用的例子还未见报道。

通过国家“七五”、“八五”和正在进行的“九五”科技攻关, 国家品种资源研究所目前已建成了拥有180种作物、35万份种质信息、将近2G字节的数据记录的中国作物种质资源信息系统(CGRIS)。CGRIS是世界上最大的植物遗传资源信息查询系统之一, 包括国家种质库管理、国家复份库管理、国家种质资源圃管理、中期库管理、农作物特性评价鉴定、优异资源综合评价和国内外种质交换7个子系统, 近700个数据库表, 112万条记录。但目前这一大型的农作物种质资源数据库仅仅用于查询、检索，隐藏的丰富知识内容有待于通过有效的知识发现工具，为农业部门的信息决策提供帮助，使数据库得到进一步的利用。

KDD概念及一般步骤
在KDD96国际会议上，Fayyad, Piatetsky-Shapiro和Smyth对KDD作了如下描述：指从数据库中获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中，数据是一系列事实的集合，模式是指用语言L来表示的一个表达式E，它可用来描述数据集的特性，E所描述的数据是集合F的一个子集FE。过程是在KDD中包含的步骤，如数据的预处理、模式搜索、知识表示及知识评价等，非平凡是指它已经超越了一般封闭形式的数量计算，而将包括对结构、模式和参数的搜索［1］。

图1 知识发现过程

　

数据准备包括3个子步骤：数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合，缩小处理范围，提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。
数据挖掘
要先决定如何产生假设，是让数据挖掘系统为用户产生假设，还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘，后一种称为验证型的数据挖掘。
选择合适的工具。
挖掘知识的操作。
证实发现的知识。
结果表达和解释根据最终用户的决策目的对提取的信息进行分析，把最有价值的信息区分出来，并且通过决策支持工具提交给决策者，因此这一步骤任务不仅是把结果表达出来，还要对信息进行过滤处理，如果不能令决策者满意，需要重复以上数据挖掘过程。
3 数据挖掘

数据挖掘是KDD最关键的步骤，也是技术难点所在。数据挖掘算法的好坏将直接影响到所发现知识的准确性。目前KDD研究大部分集中在数据挖掘算法和应用的技术上。人们往往不严格区分数据挖掘和数据库中的知识发现，两者互为使用。一般在科研领域中称为KDD，而在工程领域则称为数据挖掘。

数据挖掘的任务是从数据中发现模式。模式按功能分为预测型(Predictive)和描述型(Descriptive)，而按实际作用可分为以下6种：

3.1分类模式

分类模式把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树，从树根开始搜索，沿着数据满足的分支走，走到树叶就能确定类别。已有许多数据分类方法，如决策树方法、统计方法及粗糙集方法等。Mehta, Agrawal, Rissanen等人开始研究面向数据库的分类方法。J.Han等人在他们开发的知识发现系统DBMiner中采用了基于概括的决策树方法，该方法集成了面向属性的归纳和决策归纳技术。

3.2回归模式

回归模式的函数定义与分类模式相似，其差别在于分类模式的预测值是离散的，回归模式的预测值是连续的。

3.3关联模式

关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则：A=>B。

3.4时间序列模式

时间序列模式根据数据随时间变化的趋势，发现某一时间段内数据的相关处理模型，预测将来可能出现值的分布。它可看成是一种特定的关联模型，它在关联模型中增加了时间属性。

3.5聚类模式

与分类模式不同，聚类模式事先并不知道分组及怎样分组，而是按某种原则将数据划分组，要求组之间差别尽可能大，组内差别尽可能小。

3.6序列模式

序列模式与关联模式相仿，差别在于数据间关联性与时间联系起来。即不仅需知道事件是否发生，而且需确定事件发生的时间。

在实际工作中，分类模式和回归模式使用最普遍，但通常多种模式结合使用。分类模式、回归模式、时间序列模式属于受监督知识，可直接用来检测模式的准确性。一般在建立这些模式时，使用一部分数据作为样本，用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式则是非监督知识，因为在模式建立前结果是未知的，模式的产生不受任何监督。

　

4 典型方法及工具[7]

4.1神经网络(Neural Network)

神经网络基于自学习数学模型，通过数据的编码及神经元的迭代求解，完成复杂的模式抽取及趋势分析功能。神经网络系统由一系列类似于人脑神经元一样的处理单元（称之为节点，Node）组成，节点间彼此互连，分为输入层、中间（隐藏）层、输出层。神经网络的一般结构，如图2所示：

图2 神经网络的结构

　

---- 神经网络通过网络的学习功能得到一个恰当的连接加权值，较典型的学习方法是ＢＰ法（Back-Ｐropagation）。通过将实际输出结果同期望值进行比较，调整加权值，重新计算输出值，使得误梯度下降。不断重复学习过程，直至满足终止判断条件。

---- 神经网络系统具有非线性学习、联想记忆的优点，但也存在一些问题：神经网络系统是一个黑盒子，不能观察中间的学习过程，最后的输出结果也较难解释，影响结果的可信度及可接受程度。其次，神经网络需要较长的学习时间，对大数据量，性能出现严重问题。

4.2决策树(Decision Tree)

决策树是通过一系列规则对数据进行分类的过程。采用决策树，可以将数据规则可视化，也不需要长时间的构造过程，输出结果容易理解，精度较高，因此决策树在知识发现系统中应用较广。

----然而，采用决策树方法也有其缺点。决策树方法很难基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。

　

4.3联机分析处理（OLAP）

联机分析处理(OnLine Analytical Processing，OLAP)主要通过多维的方式对数据进行分析、查询和报表。OLAP应用主要是对用户当前及历史数据进行分析，辅助领导决策。主要是进行大量的查询操作，对时间的要求不太严格。目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。

4.4数据可视化(Data Visualization)

可视化工具能很好地向用户理解数据及解释发现的知识，其本质是对数据子集进行拓扑变换，将规则映射到拓扑。通过定义的标准接口，知识发现系统和数据可视化工具应很好地协作。由于数据处理阶段的数据量大，知识发现系统通过设定富有成效的探索起点并按恰当的可视化方式表示数据,可视化后的数据，将使用户可以直观地发现数据特征与数据隐含的依赖关系，为数据分析人员提供很好的帮助。对于发现的知识，通过可视化工具，帮助用户好地理解与评价知识的功用性。

５研究困难及发展趋势

目前，ＫＤＤ研究的主要困难在于［１］：其一，数据集合性质往往非常复杂，非线性、时序性与噪音普遍存在；其二，对数据分析的目标具有多样性，而复杂目标无论在表达还是在处理上均与领域知识有关；其三，在多样性目标下，对数据集合的分析，目前还没有现成的且满足可计算条件的一般性理论与方法。

知识发现技术正处在发展当中。知识发现涉及到数理统计、模糊理论、神经网络和人工智能等多种技术，技术含量较高，实现难度较大。此外，知识发现系统同可视化技术、地理信息系统、统计分析系统相结合，丰富数据挖掘技术及工具的功能与性能。

随着数据量的急剧增长和分析决策难度的增强，以及人们对决策分析工作的智能化、自动化要求的不断提高，人们将广泛地接受并使用知识发现技术及工具。可以预见，在今后农作物品种资源数据库的深层次利用上，知识发现将会得到充分的发展。

　

参考文献

1郭萌，王珏，数据挖掘与数据库知识发现：综述，模式识别与人工智能，1998 Vol.11 No.3

2陈栋等，KDD研究现状及发展，计算机科学，1996 Vol.23 No.6

3王清毅等，知识发现的若干问题及应用研究，1997 Vol.24 No.5

4李水平等，数据采掘技术回顾，小型微型计算机系统，1998 Vol.19 No.4

5屈定春，林原，一种新型的数据库应用-----数据采掘，计算机应用研究，1996年第六期

6胡侃，夏绍玮，基于大型数据仓库的数据采掘：研究综述，软件学报，1998 Vol.9 No.1

7张光业，从数据中发现信息，微电脑世界，1999年月1月第4期

8 Fayyad, U. Et al., Knowledge Discovery and Data Mining Towards a Unifying Framework, KDD-

96 Proc. 2nd Intl. Conf. On Knowledge Discovery & Data Mining, AAAI press, 1996

喜欢0 评分0

没钱又丑，农村户口。头可断，发型一定不能乱。邮箱:gisempire@qq.com

举报回复

一叶扁舟

论坛版主

注册日期2003-08-15
发帖数132
QQ8415821
铜币53枚
威望0点
贡献值0点
银元0个

加关注写私信

1楼^#

发布于：2003-08-16 15:05

数据挖掘与知识发现有好多，如：决策树，神经网络，证据理论，模糊集，遗传算法，归纳统计方法，Rough集方法等！

网赚 http://www.virtualvisit.cn/index.php?inductid=1452558de6b58b483565334b93fb034e

举报回复喜欢评分

bushyao

路人甲

注册日期2003-09-16
发帖数159
QQ
铜币96枚
威望0点
贡献值0点
银元0个

加关注写私信

2楼^#

发布于：2004-05-20 11:59

[IMG]http://www.gisempire.com/bbs/UploadFace/20045221239014624.jpg[/IMG]

举报回复喜欢评分

knight99

路人甲

注册日期2004-09-28
发帖数49
QQ
铜币141枚
威望0点
贡献值0点
银元0个

加关注写私信

3楼^#

发布于：2004-10-08 14:29

彩虹彼端，原来有爱

举报回复喜欢评分

knight99

路人甲

注册日期2004-09-28
发帖数49
QQ
铜币141枚
威望0点
贡献值0点
银元0个

加关注写私信

4楼^#

发布于：2004-10-08 14:29

彩虹彼端，原来有爱

举报回复喜欢评分

thinkpad 路人甲注册日期2004-06-17 发帖数27 QQ 铜币193枚威望0点贡献值0点银元0个加关注写私信	5楼^# 发布于：2004-10-14 15:12 <img src="http://www.gisempire.com/bbs/Skins/Default/emot/em01.gif"><img src="http://www.gisempire.com/bbs/Skins/Default/emot/em02.gif">
	举报回复(0) 喜欢(0) 评分

queensf

总版主

注册日期2003-12-04
发帖数735
QQ
铜币3枚
威望0点
贡献值0点
银元0个

加关注写私信

6楼^#

发布于：2004-11-01 15:06

数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。

[color=blue][size=4][i][b][u] 【解决不了的事情，就不要想。世界不会因为我而改变。】 [/size][/u][/b][/i][/color]

举报回复喜欢评分

huangjn73 路人甲注册日期2004-01-31 发帖数61 QQ 铜币-86枚威望0点贡献值0点银元0个加关注写私信	7楼^# 发布于：2004-11-09 20:32 true
	举报回复(0) 喜欢(0) 评分

huangjn73 路人甲注册日期2004-01-31 发帖数61 QQ 铜币-86枚威望0点贡献值0点银元0个加关注写私信	8楼^# 发布于：2004-11-09 20:33 <img src="images/post/smile/dvbbs/em02.gif" />
	举报回复(0) 喜欢(0) 评分

peter7529 路人甲注册日期2004-10-10 发帖数58 QQ 铜币248枚威望0点贡献值0点银元0个加关注写私信	9楼^# 发布于：2004-11-16 16:31 都是扯蛋，到底有几个数据挖掘解决了实际问题，到底有几个模型真正用到了实际，切
	举报回复(0) 喜欢(0) 评分

您需要登录后才可以回帖，登录或者注册

数据库中的知识发现综述

最新喜欢：