中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 中科院软件所  > 中科院软件所
题名:
基因表达数据的聚类算法研究
作者: 孙亮
答辩日期: 2006-06-02
授予单位: 中国科学院软件研究所
授予地点: 软件研究所
学位: 博士
关键词: 基因表达数据 ; 聚类分析 ; 基于密度的聚类 ; 一致性检测 ; 层次框架 ; 牙殖酵母基因
摘要: 基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。 为了更好的挖掘基因表达数据,近年来提出了大量基于传统聚类的改进算法和新型聚类算法。本文首先简单介绍了基因表达数据的获取和表示,然后介绍了基因表达数据聚类分析中常用的距离度量。系统地阐述了目前基因表达数据分析中的各种聚类算法,并根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类。 根据基因表达数据的特点和基于密度的聚类算法的研究,本文提出了2种新型的基于密度的适用于基因表达数据的聚类算法。基于密度的聚类算法是处理基因表达数据的有效工具,但是传统的基于密度的算法,如DBSCAN,只能设定全局密度阈值而无法得到不同密度的聚类。本文提出的两种算法都克服了该缺陷,取得了较高精度的聚类结果。两种算法为DENGENE (DENsity-based Clustering using homoGENEity test)和DENCH (DENsity-based hierarCHical clustering)。 DENGENE算法通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。通过使用一致性检测有效提高了聚类结果的精确度,克服了DBSCAN在全局阈值下易于过合并的缺陷。通过定义峰点(peak point),也就是密度比其邻域内点都大的核心点,来改变聚类的生成方式。聚类扩展时从峰点出发,且每次扩展都只能沿密度最大的方向进行。 DENCH算法成功的结合了基于密度的聚类和层次聚类的优点,同时克服了两者的缺点。利用密度的概念较好的滤除了噪声,利用层次结构获得了数据分布的全局信息,因而能够有效的获得密度差异较大的聚类,克服了传统的基于密度的算法的缺陷。与传统的层次聚类相比,DENCH的层次结构中的基本单位是一组点而不是一个点,使得DENCH的健壮性显著提高。此外DENCH还提供了自动将层次聚类结构转化为直接划分的聚类结果。 为了评价算法的性能,选取了两组广为使用芽殖酵母基因表达数据集对算法来进行测试。实验结果表明,和基于模型的五种算法、CAST算法、K-均值算法等相比,DENGENE和DENCH在滤除噪声和聚类精度方面取得了显著的改善。 为帮助用户有效的分析基因表达数据,开发了基于Java/SWT的工具GeneXP。该工具集成了多种聚类算法,除DENGENE和DENCH外,还包括层次聚类算法、K-均值算法、自组织映射,模糊C-均值算法等。GeneXP还提供了常用的数据预处理功能和多种不同的距离度量功能。用户可使用可视化工具来直观的分析聚类结构,还可有效比较不同的聚类结果,以及集成不同聚类算法的处理结果。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/7480
Appears in Collections:中科院软件所

Files in This Item:
File Name/ File Size Content Type Version Access License
10001_200328015004332孙亮_null.pdf(1586KB)----限制开放-- 联系获取全文

Recommended Citation:
孙亮. 基因表达数据的聚类算法研究[D]. 软件研究所. 中国科学院软件研究所. 2006-06-02.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[孙亮]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[孙亮]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace