中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 中科院软件所  > 中科院软件所
题名:
跨语言检索中词义消歧和未登录词翻译问题的研究
作者: 闵金明
答辩日期: 2006-06-07
授予单位: 中国科学院软件研究所
授予地点: 软件研究所
学位: 博士
关键词: 跨语言信息检索 ; 命名体翻译 ; 词义消歧 ; MinimumCut算法
摘要: 阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题。目前互联网上大多数的信息都以英文形式存在的,随着中文网络用户的不断增多,迫切需要一种能够帮助中文用户查询英文信息的工具,而中英文跨语言信息检索技术是解决这个问题的有效方法之一。 本文在对主流研究方法进行分析的基础上,明确指出了基于双语词典的跨语言信息检索方法中必须解决的两个核心问题,即词义消歧问题与未登录词的翻译问题。针对这两个问题我们分别给出了解决方案,并在算法实现的基础上,借助开源搜索引擎Nutch实现了一个中英文跨语言检索系统。具体的说,论文完成了以下工作: 第一,在对跨语言信息检索领域的国内外研究现状全面调研的基础上,给出了跨语言信息检索的定义和形式化描述、系统框架以及评价方法; 第二,对跨语言信息检索研究方法进行了重新审视,分析了各种方法的优缺点,在此基础上确定了以基于双语词典的跨语言检索研究方法中词义消歧问题和未登录词翻译问题为核心的研究方向; 第三,针对词义消歧问题,我们开发了候选翻译项在目标语料中的共现模型和候选翻译项的在目标语料中的频率模型,通过这两个模型构建候选翻译项在目标语料中的关系图,并把基于双语词典的跨语言检索方法中的词义消歧问题归结为一个分类问题,引入图论中的minimun cut算法来切割候选翻译项关系图完成分类以达到消歧的目的; 第四,针对未登录词翻译问题,我们开发基于网络可比语料的翻译对挖掘方法。在该方法中我们考虑了命名体翻译对之间的发音相似性和翻译对上下文语境中存在的语义相似性。通过一个浅层字符串音译模型,描述了源语言命名体和目标语言命名体之间的音译相似度。同时,利用IBM的翻译模型建立了两个命名体的上下文相关词汇向量之间的相似度。我们详细给出了通过共现和词频的特征从上下文中选取相关词汇的方法,以及训练IBM翻译模型的方法; 第五,我们参加了NTCIR5的英中跨语言信息检索评测,评测结果中平均精确率为单语检索的36.69%;基于第三、第四部分工作在NTCIR5中文语料上再次评测,我们得到的结果是单语检索的54.77%(NTCIR5评测会议上的最优结果为55.21%); 第六,利用开源搜索引擎Nutch,我们实现了一个中英文跨语言信息检索系统,该系统支持对用户输入的未登录词使用规则方法实时地从网络中抽取可能的翻译。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/6166
Appears in Collections:中科院软件所

Files in This Item:
File Name/ File Size Content Type Version Access License
10001_200328015004397闵金明_null.pdf(1308KB)----限制开放-- 联系获取全文

Recommended Citation:
闵金明. 跨语言检索中词义消歧和未登录词翻译问题的研究[D]. 软件研究所. 中国科学院软件研究所. 2006-06-07.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[闵金明]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[闵金明]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace