基于局部信息和领域知识的聚类算法研究

	基于局部信息和领域知识的聚类算法研究
其他题名	Clustering with Local Information and Domain Knowledge
	孙军
导师	沈一栋
	2009-06-04
学位授予单位	中国科学院研究生院
学位	硕士
学位授予地点	中科院软件所
关键词	数据挖掘
摘要	近些年来，各种信息处理系统和互联网快速发展，大量的数据随之产生。如何从这些数据中发现有用的知识就变得非常重要，因此，数据挖掘在近些年是热点研究领域。而在数据挖掘研究中，聚类分析是一种关键的非监督学习技术。本文首先就基于局部信息的聚类算法进行了深入的研究，包括基于局部回归的聚类算法研究和基于局部重构的聚类算法研究。其次，由于领域知识的应用在聚类分析的过程中很重要，所以本文就基于领域知识的聚类算法进行了研究创新。具体说来，本文的研究工作和贡献包含以下几个方面。第一，提出一种新的基于局部回归的聚类分析方法。该聚类方法基于局部学习的策略，以绝对值误差和作为簇标签错误度量，比以往文献中使用的平方误差和要更加合理和健壮。当与核回归相结合时，可以最终推导出一个谱聚类算法。在多个数据集上进行的实验结果表明，我们提出的聚类算法一般情况下效果较好。第二，提出一种新的基于正则化局部重构的聚类分析方法。该聚类方法基于局部重构的策略，此策略在维数约减领域使用较多，可以用于处理高维空间的低维流形上的数据。根据这种策略，我们提出了一种基于正则化局部重构的聚类模型，并由此推导出一种新的谱聚类算法。在多个数据集上的实验结果表明，该聚类算法和之前提出的基于局部回归的聚类算法一般情况下效果较好。第三，我们提出一种新颖的用于聚类分析的领域知识形式：特征顺序偏好。不同于聚类领域以前经常使用的实例层面的领域知识，这是一种特征层面的领域知识。然后，我们提出一个合理且自然的基于特征顺序偏好的聚类模型。此模型可以使用 Bregman 散度作为失真度量，这是一大类失真函数。该聚类模型易于扩展，可以使用更多的失真函数和权重惩罚函数；其正则化项可以采用泛化熵；还能够被扩展以处理离散数据。此外，我们给出了该模型的概率解释。在一些数据集上进行的实验结果表明，我们提出的基于特征顺序偏好的聚类模型确实能够提升聚类算法的性能。
学科领域	计算机软件
语种	中文
内容类型	学位论文
URI标识	http://ir.iscas.ac.cn/handle/311060/197
专题	基础软件与系统重点实验室
推荐引用方式 GB/T 7714	孙军. 基于局部信息和领域知识的聚类算法研究[D]. 中科院软件所. 中国科学院研究生院,2009.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
论文.pdf（3492KB）			开放获取	使用许可	请求全文