ISCAS OpenIR
SegT:一个实用的藏文分词系统
其他题名segt:a practical tibetan word segmentation system
刘汇丹; 诺明花; 赵维纳; 吴健; 贺也平
2012
发表期刊Journal of Chinese Information Processing
ISSN1003-0077
卷号26期号:1页码:97-103
摘要在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这 些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交 集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词 效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
收录类别cscd,cnki,wanfang
其他摘要This paper designs and implements a Tibetan word segmentation system named "SegT".It identifies critical words with a fast algorithm based on the trie structure when it segments each Tibetan sentence to blocks with case-auxiliary words.Then,it identifies abbreviated words when it segments each block to words by maximum matching.Finally,it detects ambiguities by bidirectional segmentation,and solve them by word frequency.Experiments show that it improves the segmenting speed by about 15% after applying the block segmentation method based on case-auxiliary words,but the block segmentation doesnt significantly increase or decrease the precision.The precision of the system reaches 96.98%,which shows that its a practical system.
关键词Tibetan Word Segmentation Case-auxiliary Words Critical Word Detection Word Frequency Statistics Tibetan Information Processing Chinese Information Processing
部门归属刘汇丹, 中国科学院软件研究所, 北京 100190, 中国. 诺明花, 中国科学院软件研究所, 北京 100190, 中国. 吴健, 中国科学院软件研究所, 北京 100190, 中国. 贺也平, 中国科学院软件研究所, 北京 100190, 中国. 赵维纳, 北京语言大学, 北京 100083, 中国.
学科领域Computer Science
语种中文
内容类型期刊论文
URI标识http://ir.iscas.ac.cn/handle/311060/14696
专题中国科学院软件研究所
推荐引用方式
GB/T 7714
刘汇丹,诺明花,赵维纳,等. SegT:一个实用的藏文分词系统[J]. Journal of Chinese Information Processing,2012,26(1):97-103.
APA 刘汇丹,诺明花,赵维纳,吴健,&贺也平.(2012).SegT:一个实用的藏文分词系统.Journal of Chinese Information Processing,26(1),97-103.
MLA 刘汇丹,et al."SegT:一个实用的藏文分词系统".Journal of Chinese Information Processing 26.1(2012):97-103.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
SegT一个实用的藏文分词系统.pdf(1024KB) 开放获取使用许可请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘汇丹]的文章
[诺明花]的文章
[赵维纳]的文章
百度学术
百度学术中相似的文章
[刘汇丹]的文章
[诺明花]的文章
[赵维纳]的文章
必应学术
必应学术中相似的文章
[刘汇丹]的文章
[诺明花]的文章
[赵维纳]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。