跨语言检索中词义消歧和未登录词翻译问题的研究

ISCAS OpenIR > 中科院软件所 > 中科院软件所

	跨语言检索中词义消歧和未登录词翻译问题的研究
	闵金明
	2006-06-07
学位授予单位	中国科学院软件研究所
学位	博士
学位授予地点	软件研究所
关键词	跨语言信息检索命名体翻译词义消歧 Minimumcut算法
摘要	阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题。目前互联网上大多数的信息都以英文形式存在的，随着中文网络用户的不断增多，迫切需要一种能够帮助中文用户查询英文信息的工具，而中英文跨语言信息检索技术是解决这个问题的有效方法之一。本文在对主流研究方法进行分析的基础上，明确指出了基于双语词典的跨语言信息检索方法中必须解决的两个核心问题，即词义消歧问题与未登录词的翻译问题。针对这两个问题我们分别给出了解决方案，并在算法实现的基础上，借助开源搜索引擎Nutch实现了一个中英文跨语言检索系统。具体的说，论文完成了以下工作：第一，在对跨语言信息检索领域的国内外研究现状全面调研的基础上，给出了跨语言信息检索的定义和形式化描述、系统框架以及评价方法；第二，对跨语言信息检索研究方法进行了重新审视，分析了各种方法的优缺点，在此基础上确定了以基于双语词典的跨语言检索研究方法中词义消歧问题和未登录词翻译问题为核心的研究方向；第三，针对词义消歧问题，我们开发了候选翻译项在目标语料中的共现模型和候选翻译项的在目标语料中的频率模型，通过这两个模型构建候选翻译项在目标语料中的关系图，并把基于双语词典的跨语言检索方法中的词义消歧问题归结为一个分类问题，引入图论中的minimun cut算法来切割候选翻译项关系图完成分类以达到消歧的目的；第四，针对未登录词翻译问题，我们开发基于网络可比语料的翻译对挖掘方法。在该方法中我们考虑了命名体翻译对之间的发音相似性和翻译对上下文语境中存在的语义相似性。通过一个浅层字符串音译模型，描述了源语言命名体和目标语言命名体之间的音译相似度。同时，利用IBM的翻译模型建立了两个命名体的上下文相关词汇向量之间的相似度。我们详细给出了通过共现和词频的特征从上下文中选取相关词汇的方法，以及训练IBM翻译模型的方法；第五，我们参加了NTCIR5的英中跨语言信息检索评测，评测结果中平均精确率为单语检索的36.69%；基于第三、第四部分工作在NTCIR5中文语料上再次评测，我们得到的结果是单语检索的54.77%（NTCIR5评测会议上的最优结果为55.21%）；第六，利用开源搜索引擎Nutch，我们实现了一个中英文跨语言信息检索系统，该系统支持对用户输入的未登录词使用规则方法实时地从网络中抽取可能的翻译。
页数	61
语种	中文
内容类型	学位论文
URI标识	http://ir.iscas.ac.cn/handle/311060/6166
专题	中科院软件所_中科院软件所
推荐引用方式 GB/T 7714	闵金明. 跨语言检索中词义消歧和未登录词翻译问题的研究[D]. 软件研究所. 中国科学院软件研究所,2006.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
10001_20032801500439（1308KB）			限制开放	--	请求全文