ISCAS OpenIR  > 基础软件国家工程研究中心
藏文统计语言模型研究
Alternative TitleThe Study on Tibetan Statistical Language Model
谢文森
Supervisor吴健
2009-06-05
Degree Grantor中国科学院软件研究所
Degree Level硕士
Place of Degree Grantor软件园5号楼12层A1206
Keyword统计语言模型
English Abstract藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值,构建藏文语言模型是藏文信息处理的关键性基础工作,是实现藏文信息化的必要步骤。 本文首先对藏文自动分词进行了研究,实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术,实现了一个藏文统计语言模型系统,主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题,实现了多种模型平滑方法,包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。 本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上,使用分词程序对藏文文本进行分词,并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型,并使用了多种平滑方法,结合测试语料对藏文统计语言模型进行评估,比较了不同平滑方法的优劣。
Subject自然语言处理
Language中文
Content Type学位论文
URIhttp://ir.iscas.ac.cn/handle/311060/214
Collection基础软件国家工程研究中心
Recommended Citation
GB/T 7714
谢文森. 藏文统计语言模型研究[D]. 软件园5号楼12层A1206. 中国科学院软件研究所,2009.
Files in This Item:
File Name/Size DocType Version Access License
200628015029036-谢文森-(976KB) 开放获取LicenseApplication Full Text
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[谢文森]'s Articles
Baidu academic
Similar articles in Baidu academic
[谢文森]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[谢文森]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.