Title: | 基于Labeled-LDA模型的文本分类新算法 |
Author: | 李文波
; 孙乐
; 黄瑞红
; 冯元勇
; 张大鲲
|
Source: | 第三届全国信息检索与内容安全学术会议论文集
|
Conference Name: | 第三届全国信息检索与内容安全学术会议
|
Conference Date: | 2007
|
Issued Date: | 2007
|
Conference Place: | 苏州
|
Keyword: | 文本分类
; 图模型
; 隐含狄利克雷分配
; 变分推断
|
Department: | 中国科学院软件研究所,北京 100080;中国科学院研究生院,北京 100049;中国科学院软件研究所,北京 100080;中国科学院软件研究所,北京 100080;中国科学院软件研究所,北京 100080;中国科学院软件研究所,北京 100080
|
Sponsorship: | 中国中文信息学会
|
Abstract: | Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能:在复且中文语料库上micro_F1提高约5.7%,在英文语料库20n |
Language: | 中文
|
Content Type: | 会议论文
|
URI: | http://ir.iscas.ac.cn/handle/311060/11024
|
Appears in Collections: | 基础软件国家工程研究中心_会议论文
|
File Name/ File Size |
Content Type |
Version |
Access |
License |
|
基于Labeled-LDA模型的文本分类新算法.pdf(483KB) | -- | -- | 限制开放 | -- | 联系获取全文 |
|
Recommended Citation: |
李文波,孙乐,黄瑞红,等. 基于Labeled-LDA模型的文本分类新算法[C]. 见:第三届全国信息检索与内容安全学术会议. 苏州. 2007.
|
|
|