Institutional Repository
| 离散数据上的非监督数据挖掘算法研究 | |
| 其他题名 | A Study on Unsupervised Data Mining Algorithms over Categorical Data |
| 沈志勇 | |
| 导师 | 沈一栋 |
| 2009-06-04 | |
| 学位授予单位 | 中科院软件所 |
| 学位 | 硕士 |
| 学位授予地点 | 中科院软件所 |
| 摘要 | 离散属性数据是数据挖掘中的一类重要数据,而非监督学习,是数据挖掘采用的一类关键方法。 本文针对多种类型的离散数据,包括文本数据,时序离散序列数据和多维离散数据, 研究若干新的非监督数据挖掘算法。主要内容包括: 多文集文本的主题建模 将 LDA 应用于多文集数据,提出了多文集文本上的主题建模方法 C-LDA。 在 C-LDA 中,主题信息可以在各个文集间传递,因此也可以将其看作一种基于传递学习的方法。 正是基于文集间的信息传递,C-LDA 更进一步克服了 LDA 模型在单文集文本数据上存在的过拟合现象。 此外,所提出的模型,还可以作为有监督的主题模型。通过大型多文集数据集,我们验证了该模型的有效性。 时序离散序列的主题建模 将 LDA 应用于时序离散序列数据,提出了 T-BiLDA 模型。在 T-BiLDA 模型中,我们提出了全局转移概率这一全新的概念。 基于该概念,T-BiLDA 模型将现有工作中的全局信息、局部信息和时序信息集成于同一个模型。在实际的入侵检测数据上取得了更好的效果。 多维离散数据的聚类分析 我们提出了将多维离散数据映射到空间数据的框架 R-map。使得现有的空间数据聚类算法可直接应用于映射后的数据。 我们从理论上证明了映射中能保持数据的聚类性质,并从实验上验证了 R-map的有效性。 |
| 学科领域 | 人工智能其他学科 |
| 语种 | 中文 |
| 内容类型 | 学位论文 |
| URI标识 | http://ir.iscas.ac.cn/handle/311060/201 |
| 专题 | 基础软件与系统重点实验室 |
| 推荐引用方式 GB/T 7714 | 沈志勇. 离散数据上的非监督数据挖掘算法研究[D]. 中科院软件所. 中科院软件所,2009. |
| 条目包含的文件 | ||||||
| 文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
| szy_thesis.pdf(2891KB) | 开放获取 | 使用许可 | 请求全文 | |||
| 个性服务 |
| 推荐该条目 |
| 保存到收藏夹 |
| 查看访问统计 |
| 导出为Endnote文件 |
| 谷歌学术 |
| 谷歌学术中相似的文章 |
| [沈志勇]的文章 |
| 百度学术 |
| 百度学术中相似的文章 |
| [沈志勇]的文章 |
| 必应学术 |
| 必应学术中相似的文章 |
| [沈志勇]的文章 |
| 相关权益政策 |
| 暂无数据 |
| 收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论