ISCAS OpenIR  > 中科院软件所  > 中科院软件所
基于语义的桌面搜索关键技术研究与实现
胡坤
2006-06-14
学位授予单位中国科学院软件研究所
学位博士
学位授予地点软件研究所
关键词桌面搜索 语义 Rdf 上下文 隐含马尔可夫模型
摘要随着硬盘成本的降低和容量的增大,用户开始在个人计算机中存放大量文件。虽然大部分操作系统提供了文件搜索工具,但是它们单一、固定的功能难以满足用户对个人计算机中丰富信息的多样化的搜索需求。因此,满足用户需求,快速和准确地定位存放在个人计算机硬盘上的信息成为一个亟待解决的问题。 Google、百度、Yahoo等公司纷纷推出桌面搜索工具,首先实现了文件的快速查找,使桌面搜索成为Web搜索的自然延伸。尽管桌面搜索的查找范围比Web搜索小很多,但是在搜索结果的准确性方面远不如Web搜索。因为硬盘文件不具有Web页面的超链接结构,所以桌面搜索不能像Web搜索一样对查询结果按照重要度排序,以致于返回的搜索结果不但包含大量无关信息,而且很少可以将重要结果排在前列。 为了解决此问题,本文提出了基于语义的桌面搜索技术,从文件语义关系和搜索上下文两方面改进搜索结果排序。基于文件语义关系的桌面搜索技术利用RDF描述文件语义关系,从而为硬盘文件建立一个语义网络。基于文件语义网络,不但可以利用PageRank等算法对搜索结果按照重要度排序,提高搜索结果的查准率,而且还可以为用户提供与查询内容相关但是不包含搜索关键字的信息,从而提高搜索结果的查全率。基于上下文的桌面搜索技术,则利用隐含马尔可夫模型建模搜索上下文。在隐含马尔可夫模型中,搜索上下文作为固定状态,搜索结果作为观察值序列。按照观察值序列的出现概率对搜索结果进行排序,可以提前显示与上下文相关的搜索结果,从而提高搜索结果的查准率。 本文在Linux上的开源桌面搜索软件Beagle基础上,实现了基于语义的桌面搜索的系统原型。并模拟了不同的测试场景,比较了基于语义的桌面搜索与Beagle在不同测试场景下的返回结果。实验结果表明基于语义的桌面搜索技术可以提高搜索结果的查准率和查全率。
页数78
语种中文
内容类型学位论文
URI标识http://ir.iscas.ac.cn/handle/311060/6378
专题中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
胡坤. 基于语义的桌面搜索关键技术研究与实现[D]. 软件研究所. 中国科学院软件研究所,2006.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
10001_20032801500431(1628KB) 限制开放--请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[胡坤]的文章
百度学术
百度学术中相似的文章
[胡坤]的文章
必应学术
必应学术中相似的文章
[胡坤]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。