中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 基础软件国家工程研究中心  > 学位论文
学科主题: 人工智能::自然语言处理
题名:
藏文统计语言模型研究
作者: 谢文森
答辩日期: 2009-06-05
导师: 吴健
授予单位: 中国科学院软件研究所
授予地点: 软件园5号楼12层A1206
学位: 硕士
关键词: 统计语言模型
其他题名: The Study on Tibetan Statistical Language Model
摘要: 藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值,构建藏文语言模型是藏文信息处理的关键性基础工作,是实现藏文信息化的必要步骤。 本文首先对藏文自动分词进行了研究,实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术,实现了一个藏文统计语言模型系统,主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题,实现了多种模型平滑方法,包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。 本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上,使用分词程序对藏文文本进行分词,并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型,并使用了多种平滑方法,结合测试语料对藏文统计语言模型进行评估,比较了不同平滑方法的优劣。
语种: 中文
内容类型: 学位论文
URI标识: http://ir.iscas.ac.cn/handle/311060/214
Appears in Collections:基础软件国家工程研究中心_学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
200628015029036-谢文森-藏文统计语言模型研究.pdf(976KB)----限制开放 联系获取全文

Recommended Citation:
谢文森. 藏文统计语言模型研究[D]. 软件园5号楼12层A1206. 中国科学院软件研究所. 2009-06-05.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[谢文森]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[谢文森]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace