中国科学院软件研究所机构知识库

Institutional Repository

图片搜索

粘贴图片网址

ISCAS OpenIR > 基础软件国家工程研究中心

	藏文统计语言模型研究
其他题名	The Study on Tibetan Statistical Language Model
	谢文森
导师	吴健
	2009-06-05
学位授予单位	中国科学院软件研究所
学位	硕士
学位授予地点	软件园5号楼12层A1206
关键词	统计语言模型
摘要	藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域，如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值，构建藏文语言模型是藏文信息处理的关键性基础工作，是实现藏文信息化的必要步骤。本文首先对藏文自动分词进行了研究，实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术，实现了一个藏文统计语言模型系统，主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题，实现了多种模型平滑方法，包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上，使用分词程序对藏文文本进行分词，并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型，并使用了多种平滑方法，结合测试语料对藏文统计语言模型进行评估，比较了不同平滑方法的优劣。
学科领域	自然语言处理
语种	中文
内容类型	学位论文
URI标识	http://ir.iscas.ac.cn/handle/311060/214
专题	基础软件国家工程研究中心
推荐引用方式 GB/T 7714	谢文森. 藏文统计语言模型研究[D]. 软件园5号楼12层A1206. 中国科学院软件研究所,2009.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
200628015029036-谢文森-（976KB）			开放获取	使用许可	请求全文

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[谢文森]的文章

百度学术

百度学术中相似的文章

[谢文森]的文章

必应学术

必应学术中相似的文章

[谢文森]的文章

相关权益政策

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量9806
全文量7506
访问量552510
下载量2