中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 中科院软件所  > 中科院软件所
题名:
文本主题切分技术和ROCCHIO模型在信息检索中应用的研究
作者: 吴曾
答辩日期: 2004
专业: 计算机软件与理论
授予单位: 中国科学院软件研究所
授予地点: 中国科学院软件研究所
学位: 博士
关键词: 信息检索 ; 向量空间模型 ; 主题切分 ; 文本过滤 ; Rocchio模型 ; 梯度下降算法
摘要: 我们当前面临着信息爆炸的时代,如何从海量的信息获得所需要的成为人们在信息时代所面临的主要问题之一。随着信息检索技术研究的深入和应用的扩大,用户对检索的要求越来越细,研究者将全文本检索技术已经细分为问答式检索,网络检索,交互式检索,文本过滤等。为了检索系统的精度和用户对系统的满意度,研究者开始考虑如何在现有的自然语言处理和文本处理的理论下,综合使用各种相关理论和技术来更好的满足用户需求。本文的提出背景是第12届国际文本检索大会的子项目,高精度文本检索(Text Retrieval Conference 12,High Accuracy Retrieval ofDocument Track)。首先分析了向量空间模型,它的优缺点,基于它广泛使用的SMART系统,概率空间模型,它的优缺点以及现在基于该模型的INQUERY平台。因为尽管现代信息检索已经不单纯是文本检索或者全文检索,而且这两种模型也已经提出了很多年,但是,上述两种模型以及各种基于此改进的模型还是广泛的用于各种检索方式的第一步或者它们处理问题的思想也被广泛的借鉴。然后,介绍了根据不同线索将文本中不同子主题切分的技术,这些线索包括词义网络和各个段落关键词出现的频率统计,并指出它们各自的优缺点。其次介绍了文本过滤技术,并分析了常用的Rocchio模型的特点。再次,介绍了用在本文所涉及到的浅层自然语言处理技术。最后,介绍了为了准确把握用户需求所需要的一些要素。本文针对文本检索大会子项目的要求和基于段落的,用户查询时可能提供一篇相关文章的查询特点,首先将Rocchio模型和向量空间算法结合起来来把握用户需求并计算文档与查询的相关度,再使用梯度下降技术来训练模型中的参数,最后依据查询和段落层的相关度,使用基于段落切分的方法返回包含用户查询最相关文章。最后,以上述技术为背景,本文实现了上述试验,并分析了试验结果。
英文摘要: In current century, how to achieve useful information for the users from huge mount of information is one of the main problems confronted with people. With the development of research and application in Information Retrieval(IR), the IR technology is divided into Question/Answer, Web, Interactive and Text Filter and so on. To advance the precision of IR system and make users more satisfied with the results, researchers have merged relevant technologies and theories based on current Natural Language Process(NLP) and IR to implement the goal. The background of this paper is Text Retrieval Conference (TREC), High Accuracy Retrieval of Document (HARD). In this paper, the characteristics of traditional vector model and probabilistic model are introduced . Although the modern IR is not restricted in full text retrieval, these two models are widely and effectively used in the first step in kinds of modern IR. Then the threads in segmenting document into different topic is introduced, which includes statistical methods and semantic network. Then, the Rocchio model characteristics in text filter are analyzed. Then, shallow technologies of NLP used in this paper are introduced. At last, to make the user query more precise, some elements are introduced. To fulfill the requirement and characteristics of this track, which include paragraph-based and a relevant document supplied by user before retrieval, the rocchio model and vector model are merged to compute relevance between query and document. Then, Gradient Decrease method is used to train the parameters of rocchio model. Then, based on the paragraph-level relevance, the sorted documents are returned. Based on such technologies, experiments are done and results are analyzed.
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/6846
Appears in Collections:中科院软件所

Files in This Item:
File Name/ File Size Content Type Version Access License
LW014077.pdf(2152KB)----限制开放-- 联系获取全文

Recommended Citation:
吴曾. 文本主题切分技术和ROCCHIO模型在信息检索中应用的研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2004-01-01.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[吴曾]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[吴曾]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace