Institutional Repository
| DNA装配中的纠错 | |
| Alternative Title | Correction Error Reads in DNA Assembling |
| 李委霖 | |
| Supervisor | 李昂生 |
| 2009-06-06 | |
| Degree Grantor | 中国科学院软件研究所 |
| Degree Level | 硕士 |
| Place of Degree Grantor | 中国科学院软件研究所 |
| Keyword | 序列纠错 |
| English Abstract | DNA装配问题是指把各个读出序列(reads)拼接成一条完整的DNA链,即确定原DNA链的核苷酸“A,T,C,G”的排列顺序。实验中,由于各种原因测出的读出片段序列与DNA链的实际结果会有误差,这些误差会影响到用于装配的算法的性能,因此需要对测出的读出序列进行纠错。现有的算法如: ECINDEL和SRCorr都能够对实验数据进行纠错。但是它们都是根据某个读出序列出现的次数来判断它的正确性。这类算法首先选择参数k和M,若读出序列所有长度为k的子串出现的次数均大于M次,则它为正确的读出序列,即确实为原DNA链的子串。同时,还可以利用这些长度为k的子串来对原来的读出序列片段进行纠错。 然而,在这些算法中,M的选择要么是一个固定值,要么是随机的,使得这些算法在纠错问题上的表现并不稳定。 本文我们计算长度为k的子串出现M次时,它的真阳性(确实为原DNA链的一部分)的概率以及假阳性和假阴性的概率。根据计算结果,我们可以选择一个最优的M值使得最后选取的子串的错误最少,即假阳性的子串与假阴性的子串的数量之和最少。我们在模拟数据和实际数据上进行了验证,与之前的纠错算法ECINDEL,SRCorr相比,我们的算法总的错误率降低了77.6%和65.1%。 |
| Subject | 计算机科学技术基础学科 |
| Language | 中文 |
| Content Type | 学位论文 |
| URI | http://ir.iscas.ac.cn/handle/311060/190 |
| Collection | 基础软件与系统重点实验室 |
| Recommended Citation GB/T 7714 | 李委霖. DNA装配中的纠错[D]. 中国科学院软件研究所. 中国科学院软件研究所,2009. |
| Files in This Item: | ||||||
| File Name/Size | DocType | Version | Access | License | ||
| 10001_20062801502901(402KB) | 开放获取 | License | Application Full Text | |||
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment