中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 基础软件国家工程研究中心  > 学位论文
题名:
基于隐含狄利克雷分配模型的文本分类方法研究
作者: 李文波
答辩日期: 2008-06-06
导师: 孙玉芳 ; 孙乐
专业: 计算机软件与理论
授予单位: 中国科学院软件研究所
授予地点: 软件研究所
学位: 博士
关键词: 文本分类 ; 图模型 ; 隐含狄利克雷分配 ; 语言模型
其他题名: Research on the Key Issues in the Text Classification Based on the Latent Dirichlet Allocation Model
分类号: 暂无
索取号: 暂无
部门归属: 基础软件国家工程研究中心
摘要: 随着互联网的不断发展,网络文本信息资源正在急剧增加,如何利用计算机自动有效地对海量的文本信息进行管理和查询成为了当前的迫切需求。而文本分类技术提供了一种对自然语言文档进行自动组织的有效手段。本文从模型平滑、类别信息嵌入和高性能求解算法等方面对LDA 模型(Latent Dirichlet Allocation,隐含狄利克雷分配)开展了研究,研究内容涉及文本分类中不平衡语料分类、文本表示、复杂分类器加速等多个方面,论文的主要工作和创新点总结如下:第一、为了克服传统LDA 模型平滑算法中直接修改多级图模型隐含变量分布的随意性我们提出了数据驱动的Laplacian 平滑方法和数据驱动的 Jelinek-Mercer 平滑方法。数据驱动的Laplacian 平滑方法缓解了传统LDA 模型的过拟合现象,数据驱动的Jelinek-Mercer 平滑方法在基本保持整体性能的情况下,降低了预测阶段的时间复杂度。数据驱动的平滑策略在平衡和非平衡语料库上都能够显著提高LDA 模型的分类性能。第二、传统LDA 模型计算目标文档在不同类别上的生成概率时,在文档非所属类别的隐含主题上会发生强制分配。针对这一问题我们提出了Labeled-LDA 模型将隐含主题和类别信息融合在一起,在分类目标文档时协同计算全部类别的隐含主题的分配以改善分类性能。第三、LDA 等隐含主题模型是近期在文本挖掘领域发展起来的重要研究方向,但是算法具有较高的计算复杂度。我们以动态负载均衡的算法为重点,研究和实现了LDA 模型在多内核计算机上的并行计算和CTM 模型(Correlated Topic Model,关联主题模型)在异构集群环境下的分布式计算。第四、基于提出的Labeled-LDA 模型我们设计和实现了一个具有柔性文本分类功能的实验系统。该系统利用Labeled-LDA 模型对目标文档中的隐含主题进行概率推断,进而得到文档在各类别上的分配量。相对概率支持向量机等判别模型概率估计方法,该分配量具有较明确的实际意义,同时避免了贝叶斯等生成分类模型输出极端概率值的问题。
英文摘要: With the development of diverse internet applications, information quantity, especially the number of text media, grows rapidly. The text classification provides an efficient means to organize massive text information. This thesis focuses on the key issues of text classification beased on the Latent Dirichlet Allocation (LDA) model. The main contributions and novelties are summarized as follows: 􀁺 Smoothing Methods for the LDA Model We proposed the data-driven smoothing strategy for LDA model and two concrete smoothing methods: The fisrt is the data-driven Laplacian smoothing which can allay the overfitting of traditional LDA model. The second is the data-driven Jelinek-Mercer smoothing which can accelerate the speed of predicting phase. Our smoothing method can improve the effectiveness of both balanced and unbalanced text classification task. 􀁺 Classificatory Information Fusion on LDA Model We proposed the Labeled-LDA model to fusion the classificatory information into the traditional LDA model. The Labeled-LDA model enhances the ability of LDA on text presentation and conqueres LDA's disability of its compulsive allocation behaviors on latent topics. Labeled-LDA model improves the effectiveness of text classification task. 􀁺 High Performance Computing on Latent Topic Model We proposed the dynamic load-balance algorithm for the latent topic models in their high performance computing. We realize the parallelled-LDA model and distributed-CTM model based on our algorithm and obtain prominent accelerated ratio. IV 􀁺 Text Soft-Classification Based on our Labeled-LDA model, we design and develop the Text Soft-Classification Experiment System in which target document is classed by the allocation across latent topics associated with classes. Labeled-LDA based text soft-classification can avoid the extreme sharp output-probability problem of many generative classifiers, such as NaiveBayes, and at the same time, it has the superior of more intelligible sematic than some probabilistic estimation methods for discriminative classifiers, such as probabilistic support vector machine.
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/5874
Appears in Collections:基础软件国家工程研究中心_学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
10001_200418015029014李文波_paper.pdf(1593KB)----限制开放-- 联系获取全文

Recommended Citation:
李文波. 基于隐含狄利克雷分配模型的文本分类方法研究[D]. 软件研究所. 中国科学院软件研究所. 2008-06-06.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[李文波]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[李文波]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace