gis
gis
管理员
管理员
  • 注册日期2003-07-16
  • 发帖数15945
  • QQ554730525
  • 铜币25337枚
  • 威望15352点
  • 贡献值0点
  • 银元0个
  • GIS帝国居民
  • 帝国沙发管家
  • GIS帝国明星
  • GIS帝国铁杆
阅读:1751回复:0

知识发现和数据挖掘及其在油田生产辅助决策中的应用

楼主#
更多 发布于:2004-07-19 16:00
<P align=center><FONT size=2><B>唐国维,申静波,赵建民,李井辉

(大庆<a href="http://www.chnaol.com/keyword.asp?keyword=石油" target="_blank" >石油</A>学院计算机科学系大庆163318)?</B></FONT></P>
<P><B>摘  要</B>:知识发现(KDD)与数据挖掘(DataMining)是一个飞速发展的领域,随着方法和技
        术手段日趋丰富,应用也更加广泛深入。本文简论了数据挖掘与知识发现技术及
        其特点,结合采掘系统原型框架探讨了数据采掘技术在油田生产辅助决策中的应用。
<B>关键词</B>:知识发现;数据挖掘;生产决策?
    随着数据库技术的不断发展及数据库管理系统的广泛应用,如何从存储大量数据的数据库提取出隐藏在数据背后的重要信息,并将这些重要信息加以分析,用于指导生产实际和科学研究,成为人们关心的问题之一。知识发现(KDD)和数据挖掘(DataMining)的概念由此产生并取得了巨大的进展。KDD常用的定义是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。被用户理解且有价值的模式模型形成了知识,有用的知识可用于决策支持、科学研究、过程控制、投资<a href="http://www.chnaol.com/keyword.asp?keyword=金融" target="_blank" >金融</A>等领域。

<B>1 知识发现和数据挖掘的涵义

</B>    为了从大量信息中发现有用的知识,需要利用知识发现和数据挖掘技术。知识发现技术是人工智能、机器学习、统计学技术与数据库技术等相结合的基础上发展起来的从数据中发现知识的技术和方法,知识发现的过程包括三个步骤,如图1所示:</P>

<P align=center><IMG src="http://www.chnaol.com/every-images/03101403.jpg" border=0></P>

<P>    (1)数据准备:包括三个子步骤:

        数据选取:从数据源中选取感兴趣的目标数据;

        数据预处理:消除噪音、估算缺损数据、删除重复数据等;

        数据变换:连续数据的离散化、数字化等。

    (2)知识提取:根据知识发现的目的和要求,选用适当的数据挖掘算法,从数据中提取有用的知识。

    (3)对所提取的知识进行解释和评价,并根据评价结果对数据准备、知识提取过程进行反馈校正,如重选目标数据,采用其它的数据挖掘算法等。?

    从上面的知识发现的过程可以看出,知识提取阶段在知识发现过程中占据关键地位,主要是应用数据挖掘(DM)技术并直接影响知识发现的结果。但是,DM过程作为KDD的关键环节注重于处理过程及处理过程中算法的选取,KDD则注重目的与结果。但是二者的本质是一致的,都是对原始数据进行分析处理,并提取出隐含在大量数据背后的反映数据内在特性的关系模式的过程。所以,人们也就常常把DM和KDD等同起来。

<B>2 知识发现和数据挖掘的特点

</B>    整个知识发现的过程都体现了数据挖掘的显著特点:

    2.1工作的对象性

    KDD与DM的工作对象为数据库。不同的数据库其数据的描述、组织和存储方式均有很大不同,采掘系统能够兼容多种数据源,通常按照数据仓库的概念组织各种数据。数据库可以分为关系数据库、面向对象数据库、事务数据库、演绎数据库、空间数据库、时间数据库、多媒体数据库、异质数据库、主动数据库、遗留数据库和Intenet信息库等等。相应地,数据挖掘按工作对象的不同而划分成不同的种类。

    2.2知识的多样性

    优秀的KDD与DM系统能够采掘多种形式的知识,如关联规则、特征规则、分类规则、聚类规则、时序规则等等。KDD与DM的发现的知识应该是有效的、新颖的,但可能并不是严格的结果集,产生的规则并不要求对所有的数据项总是成立,只要达到事先给定的阈值即可。相应地,数据挖掘按采掘的知识的不同而分类。

    2.3技术的有效性

    时间和空间是衡量数据挖掘技术的常用标准,时间和空间的耗费应该在用户可以忍受的范围内。数据采掘算法的效率、有效性和可扩充性将直接影响知识发现的效果。数据挖掘按采用的采掘技术分类:规则发现和决策树分类方法,基于神经元网络的方法、模糊与粗糙集方法、统计方法、数据可视化方法等。

<B>3 采掘系统原型框架

</B>    目前,许多数据库生产商都推出了自己的数据仓库解决方案及数据分析和挖掘工具。充分利用这些比较成熟的技术,可以大大提高数据采掘的准确性和效率。常用的挖掘系统原型结构图如图2所示。</P>

<P align=center><IMG src="http://www.chnaol.com/every-images/03101404.jpg" border=0></P>

<P>    原型系统分为三个部分:数据预处理、数据采掘、结果表达与数据评价。

    3.1数据预处理器

    负责对待采掘的数据源作必要的准备,输入为多种数据源中的大量数据,经过数据预处理后,输出准确、一致的数据。

    (1)数据获取与数据变换 从用户制定的多种数据源中采集感兴趣的数据并转换成系统承认的统一格式。数据获取提供跨平台的多种数据库的访问能力;数据变换提供数据特征的抽取能力。

    (2)数据简化与数据净化 完成数据的选择提取、净<a href="http://www.chnaol.com/keyword.asp?keyword=化工" target="_blank" >化工</A>作,如消除噪音及变量最大、最小、平均、标准差等处理等。经过简化和净化的数据存储于采掘数据库中,供数据采掘器采掘分析,为数据采掘器提供良好的采掘环境。

    3.2数据采掘器

    对经过预处理器处理的数据利用某种数据采掘技术进行实际的采掘,如关联规则、分类规则、聚类规则、时序规则等。每种挖掘技术在功能结构上是独立的,采掘器可根据用户请求或者系统自动选择采掘技术。数据采掘器工作对象为采掘数据库(DMDB),采掘器基于某种采掘技术从数据中发现数据特征间的关系,实施交互式或自动的知识采掘,从而发现用户感兴趣的知识,以结果的形式递交给结果表达与数据评价器。

    3.3结果表达与数据评价器

    对采掘的结果以图形界面的形式呈现给用户,并加以解释说明。系统提供通用的数据采掘评价的架构来比较不同类型分析的采掘结果,在进行各种评估判段后,给出评价结果,供用户进行定量评价。

<B>4 采掘技术在油田生产指挥辅助决策中应用探讨

</B>    数据挖掘技术研究在<a href="http://www.chnaol.com/keyword.asp?keyword=军事" target="_blank" >军事</A>、公安、<a href="http://www.chnaol.com/keyword.asp?keyword=航空" target="_blank" >航空</A>、医学、<a href="http://www.chnaol.com/keyword.asp?keyword=石油" target="_blank" >石油</A>勘探开发及<a href="http://www.chnaol.com/keyword.asp?keyword=商业" target="_blank" >商业</A>等领域产生重要应用。下面结合采掘系统原型框架对采掘技术在油田生产指挥辅助决策系统(大庆油田第一采油厂)中的应用进行探讨。

    4.l方法简述

    影响油田生产的因素很多而且作用的机制也不尽相同。在众多的影响因素中,很多都具有不确定性。为提高油田产量通常会采取多种措施,但是,这些措施的采取常以经验描述为主。如何根据油田生产数据预测未来的提高油田产量的方法成为油田生产决策者关心的问题之一。随着计算机技术的迅猛发展,各种新的预测技术不断出现,数据挖掘技术是近年来发展最为快速的一种分析和决策手段,它以历史数据为基础,与数据仓库技术相结合,通过对历史数据的分析和挖掘,找出隐藏在这些数据内部的关系模式。对于影响油田生产的各种因素,我们可以将它们约成一个采掘数据库(DMDB),利用数据挖掘技术找出各单井、队、矿、区块或者层系在这些因素上的特征值,然后再利用这些特征值,对影响油田生产的措施效果进行预测,从而为未来的油田生产提供科学依据。

    4.2体系结构?

    根据实际状况,以KDD与DM技术为核心的油田生产指挥决策系统可以采用三级体系结构,图3所示。对于数据挖掘来说,为了提高数据挖掘结果准确性,数据的选取要尽可能的广泛,油田生产数据可以是各种形式的数据源,记录方式可能有多种方式,因此,系统应该兼容多种数据源。</P>

<P align=center><IMG src="http://www.chnaol.com/every-images/03101405.jpg" border=0></P>

<P>    数据挖掘根据确定的目标提取数据且采用多种常用的采掘分析方法。采掘结果以直观、便于理解的形式提供给用户,供用户评价以支持生产决策。如果用户对采掘分析的结果感到不满意,可以采用不同方法重新分析。

    4.3挖掘结果

    数据挖掘的结果以填充图、表的形式给出(见图4)。从图中可以定性、定量的给出影响油田生产的各种因素对油田产量的影响的大小,并以表的形式给出相关数据。</P>

<P align=center><IMG src="http://www.chnaol.com/every-images/03101406.jpg" border=0></P>

<P><B>5 结束语

</B>    知识发现与数据挖掘是一个飞速发展的领域,方法和技术手段日趋丰富,应用也更加广泛、深入。作为<a href="http://www.chnaol.com/keyword.asp?keyword=石油" target="_blank" >石油</A>高校工作者应该致力于新技术在油田生产方面的研究应用,本文只是从数据挖掘的角度,提出了决策挖掘系统的三级结构,对数据挖掘技术在油田生产辅助决策中的应用作了一些探讨。如何将知识发现与数据挖掘技术有机地应用于油田生产实践,仍然是有意义且十分艰难的工作。</P>
喜欢0 评分0
游客

返回顶部