ISCAS OpenIR  > 基础软件国家工程研究中心
藏文统计语言模型研究
其他题名The Study on Tibetan Statistical Language Model
谢文森
导师吴健
2009-06-05
学位授予单位中国科学院软件研究所
学位硕士
学位授予地点软件园5号楼12层A1206
关键词统计语言模型
摘要藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值,构建藏文语言模型是藏文信息处理的关键性基础工作,是实现藏文信息化的必要步骤。 本文首先对藏文自动分词进行了研究,实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术,实现了一个藏文统计语言模型系统,主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题,实现了多种模型平滑方法,包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。 本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上,使用分词程序对藏文文本进行分词,并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型,并使用了多种平滑方法,结合测试语料对藏文统计语言模型进行评估,比较了不同平滑方法的优劣。
学科领域自然语言处理
语种中文
内容类型学位论文
URI标识http://ir.iscas.ac.cn/handle/311060/214
专题基础软件国家工程研究中心
推荐引用方式
GB/T 7714
谢文森. 藏文统计语言模型研究[D]. 软件园5号楼12层A1206. 中国科学院软件研究所,2009.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
200628015029036-谢文森-(976KB) 开放获取使用许可请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[谢文森]的文章
百度学术
百度学术中相似的文章
[谢文森]的文章
必应学术
必应学术中相似的文章
[谢文森]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。