Title: | 基于词汇链的多文档摘要技术研究 |
Author: | 周全
|
Issued Date: | 2006-06-07
|
Degree Grantor: | 中国科学院软件研究所
|
Place of Degree Grantor: | 软件研究所
|
Degree Level: | 博士
|
Keyword: | 词汇链
; 多文档摘要
; 面向查询的摘要
|
Abstract: | 随着互联网的发展和普及,信息量正以指数规律飞速地增长。对于普通用户来说,Internet上的“信息迷航”和“信息过载”现象已经成为日益严重的问题。而文本摘要技术正是解决这一难题的关键技术之一。
本文从介绍文本摘要的概念与分类开始,对现有的文本摘要方法进行了深入的分析,在此基础上提出了一种改进的词汇链摘要算法,并构建了一个实用的多文档摘要系统。具体地说,本文的主要工作有:
第一,集中整理并较为详细介绍了目前常用的文本摘要算法。根据采用的特征,可以将这些算法分为基于外部特征、基于简单语法分析以及基于深层语法分析的摘要算法。通过对国内外研究现状的分析,我们指出后两种算法是以后研究的重点。另外,我们也较详细地给出了多文档摘要算法和面向查询的摘要算法的特点,以及目前摘要系统的评价方法,特别是最新的评价方法ROUGE和Pyramid。
第二,详细描述了词汇链算法的基本概念及发展历程,针对传统词汇链算法的不足和目前面向查询的多文档摘要需求,提出了改进的词汇链摘要算法。对传统算法的改进主要体现在以下3个方面:1)按照候选词词频由高到低的处理顺序,使其能优先生成最后摘要所需要的词汇链,提高了传统算法的效率;2)在词汇链合并算法部分,采用分开构建、二次合并的策略,使算法可以处理大规模文档;3)在摘要生成算法中考虑了查询条件与候选句子的相关性,并与其包含的词汇链共同作用以生成能够满足用户查询需求的摘要。
第三,以改进的词汇链算法为基础,我们实现了一个支持中文和英文的摘要系统IS_SUM。该系统的特点是各模块独立,可以方便地查询每个中间结果,也可以方便地与其它系统集成。该系统连续两年参加了文本理解国际评测会议(DUC05和DUC06),采用传统词汇链算法的摘要系统IS_SUMv0.1在32个参评系统中排名24,改进后的摘要系统IS_SUM v0.2在34个参评系统中排名15,Pyramid评测中排名第8(共25个参评系统),达到了我们预期的效果。
第四,最后我们将IS_SUM摘要系统应用于网络新闻领域,实现了一个能定时给出热点新闻的多文档摘要系统IS_NEWS。它具有从Google与Baidu的新闻聚合页面中获取新闻主题并生成与该主题相关的简短摘要的功能。 |
Language: | 中文
|
Content Type: | 学位论文
|
URI: | http://ir.iscas.ac.cn/handle/311060/6948
|
Appears in Collections: | 中科院软件所
|
File Name/ File Size |
Content Type |
Version |
Access |
License |
|
10001_200328015004360周全_null.doc(1285KB) | -- | -- | 限制开放 | -- | 联系获取全文 |
|
Recommended Citation: |
周全. 基于词汇链的多文档摘要技术研究[D]. 软件研究所. 中国科学院软件研究所. 2006-06-07.
|
|
|