中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 基础软件国家工程研究中心  > 学位论文
学科主题: 人工智能::自然语言处理
题名:
基于结构转换和序列标注的形式化句法统计翻译模型研究
作者: 张大鲲
答辩日期: 2010-05-28
导师: 赵琛 ; 孙乐
专业: 其他专业
授予单位: 中国科学院研究生院
授予地点: 北京
学位: 博士
关键词: 统计机器翻译
摘要: 随着全球化的不断深入和互联网的发展,人们在日常工作和生活中常常需要面对大量的非母语信息,如何利用计算机实现不同语言之间的自动转换以克服人类的语言障碍已成为当前人们的迫切需求。由于统计机器翻译方法具有语言依赖性弱、系统开发周期短、翻译质量较好等优点,目前已成为机器翻译研究界的热点研究方向。本文从形式化句法的角度,针对目前统计机器翻译方法中存在的非连续短语处理、训练和搜索相独立以及短语顺序的调整等问题开展了研究工作。论文的主要工作和创新点总结如下: 1. 改进的短语翻译模型 目前常用的基于短语的翻译模型没有考虑对非连续短语的处理。我们提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,通过借助上下文词汇信息以达到改善翻译结果的目的。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,改进的非连续短语模型在取得与层次型短语模型相当的翻译性能的情况下,计算效率也得到了提高。 2. 基于SEARN的形式化句法模型 在目前的机器学习方法中,训练和搜索的过程相对独立,训练时采用的复杂结构信息在搜索过程中常常难于保持。我们提出了一种转换操作,将集成训练和搜索的结构化预测方法(Search-based Structured Prediction,SEARN)用于转换后的序列标注问题,以解决双语句法树之间的映射。实验表明,该方法在抽取短语数量只有短语模型十分之一的情形下,仍可取得与短语模型相当的翻译性能。 3. 基于压平的双语句法树结构的形式化句法模型 短语顺序是翻译时需要关注的关键问题之一,目前的方法通常只是以源语言端的信息作为调序的依据。我们提出了一种基于压平的双语句法树结构的形式化句法方法。其核心是抽取带有方向属性的短语对,利用这种方向属性辅助目标句子的生成,从而改善目标句子的内部结构(短语顺序)以提高翻译质量。在NIST MT08机器翻译评测数据上的实验表明,这种方法和基于短语的系统相比BLUE值获得7%的提高。 4. 基于序列标注的形式化句法模型 在翻译时句子中的某些区域通常倾向于作为一个整体来进行翻译,目前的方法对句子中的所有词都允许任意位置的词序调整,带来了很多不合理的顺序调整结果。我们提出了一种基于序列标注的形式化句法模型。首先利用压平的双语句法树结构表示双语句子,然后通过我们定义的标签对树节点进行标记,最后借助条件随机场模型对这些标签进行学习。通过这些标签可以区分出能够作为整体翻译的区域,以及句子中难于翻译的部分。同时,对不同的翻译区域可以采用不同的翻译方法,通过局部翻译质量的提高可以带来了整个句子翻译质量的改善。该模型和基于层次型短语的模型比较,BLUE值得到了5%的提高。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/2305
Appears in Collections:基础软件国家工程研究中心_学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
paper.pdf(1309KB)----限制开放 联系获取全文

Recommended Citation:
张大鲲. 基于结构转换和序列标注的形式化句法统计翻译模型研究[D]. 北京. 中国科学院研究生院. 2010-05-28.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[张大鲲]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[张大鲲]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace