zzmmxx
路人甲
路人甲
  • 注册日期2007-07-23
  • 发帖数1
  • QQ
  • 铜币106枚
  • 威望0点
  • 贡献值0点
  • 银元0个
阅读:4358回复:7

请问现在有什么好的数据挖掘工具?

楼主#
更多 发布于:2007-07-26 11:58
请问现在有什么好的数据挖掘工具?
喜欢0 评分0
gis
gis
管理员
管理员
  • 注册日期2003-07-16
  • 发帖数15945
  • QQ554730525
  • 铜币25337枚
  • 威望15352点
  • 贡献值0点
  • 银元0个
  • GIS帝国居民
  • 帝国沙发管家
  • GIS帝国明星
  • GIS帝国铁杆
1楼#
发布于:2007-07-26 17:04
<H2 align=center><FONT color=#008080 size=3><STRONG>数据挖掘工具及其选择</STRONG></FONT></H2>
<P align=right><FONT color=#008080 size=3><EM>清华大学计算机系 郑纬民 黄 刚</EM></FONT></P>
<P align=center><STRONG><FONT color=#0000ff size=2>一、数据挖掘工具</FONT></STRONG></P>
<P><FONT color=#0000ff size=2>  在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。<BR>  特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM 公司的Advanced Scout 系统针对NBA 的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT 系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。<BR><BR>  特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。<BR><BR>  通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。<BR><BR>  下面简单介绍几种数据挖掘工具:<BR><BR><STRONG>  1. QUEST <BR></STRONG><BR>  QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:<BR><BR>  1、提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。<BR>  2、各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。<BR>  3、算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。<BR>  4、为各种发现功能设计了相应的并行算法。<BR><BR><STRONG>  2. MineSet <BR></STRONG><BR>  MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:<BR><BR>  1、MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。<BR>  2、提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。<BR>  3、支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。<BR>  4、多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。<BR>  5、操作简单。<BR>  6、支持国际字符。<BR>  7、可以直接发布到Web。<BR><BR><STRONG>  3. DBMiner <BR></STRONG><BR>  DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:<BR><BR>  1、能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。<BR>  2、综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。<BR>  3、提出了一种交互式的类SQL 语言——数据开采查询语言DMQL。<BR>  4、能与关系数据库平滑集成。<BR>  5、实现了基于客户/ 服务器体系结构的Unix 和PC(Windows/NT)版本的系统。</FONT></P>
<P align=center><STRONG><FONT color=#0000ff size=2>二、数据挖掘工具的选择</FONT></STRONG></P>
<P><FONT color=#0000ff size=2>  如何选择满足自己需要的数据挖掘工具呢?评价一个数据挖掘工具,需要从以下几个方面来考虑:<BR><BR><STRONG>  1 .可产生的模式种类的多少<BR></STRONG><BR>  指本专题第一篇文章提到的六种模式。<BR><BR><STRONG>  2 .解决复杂问题的能力<BR></STRONG><BR>  数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:<BR><BR>  1、多种模式多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。例如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集上进行操作更有效、准确度更高。<BR>  2、多种算法很多模式,特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。<BR>  3、验证方法在评估模式时,有多种可能的验证方法。比较成熟的方法像N 层交叉验证或Bootstrapping 等可以控制,以达到最大的准确度。<BR>  4、数据选择和转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。<BR>  5、可视化可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。<BR>  6、扩展性为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?是否支持并行计算?算法本身设计为并行的或利用了DBMS 的并行性能?支持哪种并行计算机,SMP 服务器还是MPP 服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?<BR><BR>  为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。<BR><BR><STRONG>  3 .易操作性<BR></STRONG><BR>  易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动化地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、Visual Basic 、Power Builder 这样的编程语言中。<BR><BR>  模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用C 这样的程序语言或SQL 中的规则集,把模式导出到程序或数据库中。<BR><BR><STRONG>  4 .数据存取能力<BR></STRONG><BR>  好的数据挖掘工具可以使用SQL 语句直接从DBMS 中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如平行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft 的ODBC 就是一个这样的接口。<BR><BR><STRONG>  5 .与其他产品的接口<BR></STRONG><BR>  有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP 工具。数据挖掘工具是否能提供与这些工具集成的简易途径?<BR><BR>  因为数据挖掘工具需要考虑的因素很多,很难按照原则给工具排一个优劣次序。最重要的还是用户的需要,根据特定的需求加以选择。数据挖掘工具可以给很多产业带来收益。国外的许多行业如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动,国内在这方面的应用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。 </FONT></P>
举报 回复(0) 喜欢(0)     评分
whisky_chen
路人甲
路人甲
  • 注册日期2004-06-01
  • 发帖数2
  • QQ
  • 铜币109枚
  • 威望0点
  • 贡献值0点
  • 银元0个
2楼#
发布于:2007-08-20 21:22
<img src="images/post/smile/dvbbs/em02.gif" />
举报 回复(0) 喜欢(0)     评分
whmwxhanshan123
路人甲
路人甲
  • 注册日期2006-06-17
  • 发帖数3108
  • QQ
  • 铜币6445枚
  • 威望0点
  • 贡献值0点
  • 银元0个
3楼#
发布于:2007-09-11 15:28
支持
举报 回复(0) 喜欢(0)     评分
jzhb1987
路人甲
路人甲
  • 注册日期2008-03-20
  • 发帖数7
  • QQ
  • 铜币132枚
  • 威望0点
  • 贡献值0点
  • 银元0个
4楼#
发布于:2010-04-05 21:08
<img src="images/post/smile/dvbbs/em01.gif" /><img src="images/post/smile/dvbbs/em01.gif" /><img src="images/post/smile/dvbbs/em02.gif" />
举报 回复(0) 喜欢(0)     评分
sny
sny
路人甲
路人甲
  • 注册日期2003-07-29
  • 发帖数13
  • QQ
  • 铜币150枚
  • 威望0点
  • 贡献值0点
  • 银元0个
5楼#
发布于:2010-05-13 17:02
<P>有没有试用的啊?</P>
加盟八趣中国互联广告网络平台,马上就能为你带来直接的经济收入http://www.8qu.net/register.asp?net=sny
举报 回复(0) 喜欢(0)     评分
fftown
路人甲
路人甲
  • 注册日期2007-11-01
  • 发帖数3
  • QQ
  • 铜币110枚
  • 威望0点
  • 贡献值0点
  • 银元0个
6楼#
发布于:2010-07-18 11:44
<P>学习下。刚要开始学习3S技术</P><img src="images/post/smile/dvbbs/em01.gif" /><img src="images/post/smile/dvbbs/em01.gif" />
举报 回复(0) 喜欢(0)     评分
viking611
路人甲
路人甲
  • 注册日期2011-09-18
  • 发帖数13
  • QQ
  • 铜币130枚
  • 威望0点
  • 贡献值0点
  • 银元0个
7楼#
发布于:2011-09-18 20:55
路过学习啦,呵呵
举报 回复(0) 喜欢(0)     评分
游客

返回顶部