中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 计算机科学国家重点实验室  > 学位论文
学科主题: 计算机软件
题名:
基于局部信息和领域知识的聚类算法研究
作者: 孙军
答辩日期: 2009-06-04
导师: 沈一栋
授予单位: 中国科学院研究生院
授予地点: 中科院软件所
学位: 硕士
关键词: 数据挖掘
其他题名: Clustering with Local Information and Domain Knowledge
摘要: 近些年来,各种信息处理系统和互联网快速发展,大量的数据随之产生。如何从这些数据中发现有用的知识就变得非常重要,因此,数据挖掘在近些年是热点研究领域。 而在数据挖掘研究中,聚类分析是一种关键的非监督学习技术。本文首先就基于局部信息的聚类算法进行了深入的研究,包括基于局部回归的聚类算法研究和基于局部重构的聚类算法研究。其次,由于领域知识的应用在聚类分析的过程中很重要,所以本文就基于领域知识的聚类算法进行了研究创新。具体说来,本文的研究工作和贡献包含以下几个方面。 第一,提出一种新的基于局部回归的聚类分析方法。该聚类方法基于局部学习的策略,以绝对值误差和作为簇标签错误度量,比以往文献中使用的平方误差和要更加合理和健壮。当与核回归相结合时,可以最终推导出一个谱聚类算法。在多个数据集上进行的实验结果表明,我们提出的聚类算法一般情况下效果较好。 第二,提出一种新的基于正则化局部重构的聚类分析方法。该聚类方法基于局部重构的策略,此策略在维数约减领域使用较多,可以用于处理高维空间的低维流形上的数据。根据这种策略,我们提出了一种基于正则化局部重构的聚类模型,并由此推导出一种新的谱聚类算法。在多个数据集上的实验结果表明,该聚类算法和之前提出的基于局部回归的聚类算法一般情况下效果较好。 第三,我们提出一种新颖的用于聚类分析的领域知识形式:特征顺序偏好。不同于聚类领域以前经常使用的实例层面的领域知识,这是一种特征层面的领域知识。然后, 我们提出一个合理且自然的基于特征顺序偏好的聚类模型。 此模型可以使用 Bregman 散度作为失真度量,这是一大类失真函数。该聚类模型易于扩展,可以使用更多的失真函数和权重惩罚函数;其正则化项可以采用泛化熵;还能够被扩展以处理离散数据。此外,我们给出了该模型的概率解释。在一些数据集上进行的实验结果表明,我们提出的基于特征顺序偏好的聚类模型确实能够提升聚类算法的性能。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/197
Appears in Collections:计算机科学国家重点实验室 _学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
论文.pdf(3492KB)----限制开放 联系获取全文

Recommended Citation:
孙军. 基于局部信息和领域知识的聚类算法研究[D]. 中科院软件所. 中国科学院研究生院. 2009-06-04.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[孙军]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[孙军]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace