中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 计算机科学国家重点实验室  > 学位论文
学科主题: 人工智能::人工智能其他学科
题名:
离散数据上的非监督数据挖掘算法研究
作者: 沈志勇
答辩日期: 2009-06-04
导师: 沈一栋
授予单位: 中科院软件所
授予地点: 中科院软件所
学位: 硕士
其他题名: A Study on Unsupervised Data Mining Algorithms over Categorical Data
摘要: 离散属性数据是数据挖掘中的一类重要数据,而非监督学习,是数据挖掘采用的一类关键方法。 本文针对多种类型的离散数据,包括文本数据,时序离散序列数据和多维离散数据, 研究若干新的非监督数据挖掘算法。主要内容包括: 多文集文本的主题建模 将 LDA 应用于多文集数据,提出了多文集文本上的主题建模方法 C-LDA。 在 C-LDA 中,主题信息可以在各个文集间传递,因此也可以将其看作一种基于传递学习的方法。 正是基于文集间的信息传递,C-LDA 更进一步克服了 LDA 模型在单文集文本数据上存在的过拟合现象。 此外,所提出的模型,还可以作为有监督的主题模型。通过大型多文集数据集,我们验证了该模型的有效性。 时序离散序列的主题建模 将 LDA 应用于时序离散序列数据,提出了 T-BiLDA 模型。在 T-BiLDA 模型中,我们提出了全局转移概率这一全新的概念。 基于该概念,T-BiLDA 模型将现有工作中的全局信息、局部信息和时序信息集成于同一个模型。在实际的入侵检测数据上取得了更好的效果。 多维离散数据的聚类分析 我们提出了将多维离散数据映射到空间数据的框架 R-map。使得现有的空间数据聚类算法可直接应用于映射后的数据。 我们从理论上证明了映射中能保持数据的聚类性质,并从实验上验证了 R-map的有效性。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/201
Appears in Collections:计算机科学国家重点实验室 _学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
szy_thesis.pdf(2891KB)----限制开放 联系获取全文

Recommended Citation:
沈志勇. 离散数据上的非监督数据挖掘算法研究[D]. 中科院软件所. 中科院软件所. 2009-06-04.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[沈志勇]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[沈志勇]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace