gis
gis
管理员
管理员
  • 注册日期2003-07-16
  • 发帖数15945
  • QQ554730525
  • 铜币25337枚
  • 威望15352点
  • 贡献值0点
  • 银元0个
  • GIS帝国居民
  • 帝国沙发管家
  • GIS帝国明星
  • GIS帝国铁杆
阅读:2570回复:2

分 类 器 在 天 文 学 中 的 应 用

楼主#
更多 发布于:2003-08-16 00:46
分 类 器 在 天 文 学 中 的 应 用

背景:在天文观察中拍摄的照片中常常会有很多数据,例如一张照片中会有23040*23040个16位的象素,这样3000张照片就会有3T的数据,包含约2亿个物体。这么大的数据量使得用人工的方法来进行分析变得不可能了,我们的目的就是使这个过程自动化,用计算机来代替天文学家的工作。

照片中所含物体可能有清晰的和模糊的两类:清晰的天文学家可以用肉眼来辨别,而模糊的则天文学家也无法用肉眼来辨别。照片中有绝大部分都是比较模糊的,在这儿我们采用了CCD镜象的方法来实现对这些物体的辨别。


决策树介绍。

正如以前所说的ID3和C4:他们采用的判断方法是“最小熵”,判断树结束的方法是树结点中所含的记录属于同一个类,或者所有记录属性值都是相等的。

用ID3和C4有一个缺点:需要对每一个属性的每一个值都要都要分割一次,那么所得到的规则(一个branch就是一个规则)就会过于专门化了。在一些结点里,有时候进行了不必要的分割。而实际上通常只是一个属性的所有值的一个子集对于分类器的结果有影响。在这儿我们提出它的改进方法��“GID3*”,“O�Btree”算法(需要看Fayyad资料的):在GID3*里,对于一个选定的属性,我们不需要对每一个属性值都要分割一次。O�Btree

里,它用一种“C-SEP”的方法来代替传统的混合度的度量的分割方法。

在具体应用决策树的过程中,在这里通过建立许多树来选取最优化的规则。为什么要这么做呢?一个树中总有好的和坏的规则,这就是要用修剪的原因。既然我们有好的决策树生成器,为什么不多生成一些树,然后从中选择最好的呢?那怎么选择好的规则呢?1,用Fisher’s exact test的方法(需要进一步看资料的,Finney),来评估每一个条件对于根据规则得到的类的相关性,对于相关性大于某个值的条件就删除掉。2,结合1我们再用测试集来选出好的规则。

通过不断随机地分割训练集,我们可以得到很多好的规则。下面就是怎么样在这些规则中来选取一个最小子集,而且它能够覆盖所有的原始记录,最小的意思是在包含所有原始记录的基础上,无法再删除一个规则了。通过这种方法,我们能够得到比只用一个决策树少但更有效的规则,这种方法建立的基础是决策树的建立时间的花费是比较少的。


分类标准属性的选取过程。

首先通过FOCUS软件来确定没一幅照片中的物体,同时来确定很多基本属性。这样对于每一个物体我们可以得到约四十个的基本属性。这个实验里,我们将物体的类分成四类(例如星,星系等)。

下面的问题是该选取什么样的“分类标准属性”,显然用基本属性是不行的��太多而且有些是“变化”的。我们必须根据这些基本属性来得到一些添加属性,这些属性对于不同情况下所拍照片中的物体是“不变”的(例如,边缘亮度与中间亮度的比较等等)。那怎么来得到这些属性呢?

用下面的方法,我们基于四个基本属性来得到四个新的一般化属性:我们先绘制两维的恒星位置的曲线图,然后再计算每个物体到恒星的距离作为新的属性。

再根据这4个新的一般化属性,我们得到用于分类标准的2个稳定的添加属性,这个过程需要经验和专业知识。


模糊物体的辨别过程。

这儿采用的方法是;先用一种CCD Image的方法把模糊的照片影象为可以分辨的,然后通过人工来得到物体对应的类。这样原先模糊的物体的基本属性就可以与分得的类来组成一个记录了。就可以用上面的方法来进行分类了。


得到的分类结果分析。

用ID3的准确率是75.6%,GID3*是90.1%,O�Btree是91.2%。如果采用了生成多树然后选择的方法的话其准确率是94.2%。如果仅仅采用基本属性的话,其准确率会大大降低的。

喜欢0 评分0
一叶扁舟
论坛版主
论坛版主
  • 注册日期2003-08-15
  • 发帖数132
  • QQ8415821
  • 铜币53枚
  • 威望0点
  • 贡献值0点
  • 银元0个
1楼#
发布于:2003-08-24 11:41
有内容!
网赚 http://www.virtualvisit.cn/index.php?inductid=1452558de6b58b483565334b93fb034e
举报 回复(0) 喜欢(0)     评分
shengzi
路人甲
路人甲
  • 注册日期2003-08-26
  • 发帖数53
  • QQ
  • 铜币301枚
  • 威望0点
  • 贡献值0点
  • 银元0个
2楼#
发布于:2003-08-26 09:24
好文章
举报 回复(0) 喜欢(0)     评分
游客

返回顶部