Title: | 基于语义的桌面搜索关键技术研究与实现 |
Author: | 胡坤
|
Issued Date: | 2006-06-14
|
Degree Grantor: | 中国科学院软件研究所
|
Place of Degree Grantor: | 软件研究所
|
Degree Level: | 博士
|
Keyword: | 桌面搜索
; 语义
; RDF
; 上下文
; 隐含马尔可夫模型
|
Abstract: | 随着硬盘成本的降低和容量的增大,用户开始在个人计算机中存放大量文件。虽然大部分操作系统提供了文件搜索工具,但是它们单一、固定的功能难以满足用户对个人计算机中丰富信息的多样化的搜索需求。因此,满足用户需求,快速和准确地定位存放在个人计算机硬盘上的信息成为一个亟待解决的问题。
Google、百度、Yahoo等公司纷纷推出桌面搜索工具,首先实现了文件的快速查找,使桌面搜索成为Web搜索的自然延伸。尽管桌面搜索的查找范围比Web搜索小很多,但是在搜索结果的准确性方面远不如Web搜索。因为硬盘文件不具有Web页面的超链接结构,所以桌面搜索不能像Web搜索一样对查询结果按照重要度排序,以致于返回的搜索结果不但包含大量无关信息,而且很少可以将重要结果排在前列。
为了解决此问题,本文提出了基于语义的桌面搜索技术,从文件语义关系和搜索上下文两方面改进搜索结果排序。基于文件语义关系的桌面搜索技术利用RDF描述文件语义关系,从而为硬盘文件建立一个语义网络。基于文件语义网络,不但可以利用PageRank等算法对搜索结果按照重要度排序,提高搜索结果的查准率,而且还可以为用户提供与查询内容相关但是不包含搜索关键字的信息,从而提高搜索结果的查全率。基于上下文的桌面搜索技术,则利用隐含马尔可夫模型建模搜索上下文。在隐含马尔可夫模型中,搜索上下文作为固定状态,搜索结果作为观察值序列。按照观察值序列的出现概率对搜索结果进行排序,可以提前显示与上下文相关的搜索结果,从而提高搜索结果的查准率。
本文在Linux上的开源桌面搜索软件Beagle基础上,实现了基于语义的桌面搜索的系统原型。并模拟了不同的测试场景,比较了基于语义的桌面搜索与Beagle在不同测试场景下的返回结果。实验结果表明基于语义的桌面搜索技术可以提高搜索结果的查准率和查全率。 |
Language: | 中文
|
Content Type: | 学位论文
|
URI: | http://ir.iscas.ac.cn/handle/311060/6378
|
Appears in Collections: | 中科院软件所
|
File Name/ File Size |
Content Type |
Version |
Access |
License |
|
10001_200328015004312胡坤_null.doc(1628KB) | -- | -- | 限制开放 | -- | 联系获取全文 |
|
Recommended Citation: |
胡坤. 基于语义的桌面搜索关键技术研究与实现[D]. 软件研究所. 中国科学院软件研究所. 2006-06-14.
|
|
|