首頁->知識中心

校正DNA測序數據誤差的一種新工具

  日期:2014-09-09  瀏覽:0



在過去的幾年里,下一代DNA測序的快速發展,已經徹底改變了生物學和生態學研究。DNA測序成本已經大幅下降,測序機器已經成為一種標準的實驗室設備。低成本的測序技術使得研究人員能夠發現讓一些人更易受疾病影響的基因差異;探索人類腸道或海洋底部微生物群落的基因組成;并快速識別危及生命感染的致病微生物。


但是,雖然測序成本已經下降,但是所產生的數據精確度改進還很緩慢;所產生的堿基中有大約1%仍然被稱為不正確。為此,生物信息學界構建了專門的誤差校正工具,利用測序數據中的固有冗余序列,來查找和修復miscall及其他測序誤差。試驗結果表明,將最好的誤差校正工具與標準的生物信息學分析流程相結合,可以產生更高質量的基因組數據和更準確預估的基因變異。


然而,準確地校正誤差是一個難題,主要是因為基因組的重復性和模糊性。校正簡單的堿基置換(substitution)誤差是很容易的,例如,當50個序列讀長(reads)確定一個給定的堿基是A,只有正在校正的讀長確定它是G。通過下游工具,如assemblers和aligners,可以很好地處理這種簡單的誤差。挑戰在于,當有多種可能的修正——如當50個讀長確定它是A,49個讀長確定它是G,而正在較正的讀長則確定是T時,我們該如何正確地校正,因為每當讀長落在基因組重復區末端時都會發生這種情況。要進行這種校正,就必須沒有被測基因組的任何序列知識,并且關于哪種修正“正確”的唯一線索來自于序列數據本身。


澳大利亞悉尼大學的研究人員,與英聯邦科學與工業研究組織(CSIRO)的同事,剛剛發布了一種新的誤差校正工具,他們稱其為“Blue”。Blue是一種高性能的C#應用程序,可在Windows系統、Mono on Linux和OS X運行。相關研究結果發表在最近的《Bioinformatics》雜志,測試結果表明,Blue明顯快于其他可用的工具——特別是在Windows系統中,它也更加準確,因為它能遞歸地評估正在修正的讀長背景中的選擇性修正。


Blue另一個不尋常的特點是,它能糾正所有三種類型的可能誤差(substitutions、deletions和insertions),使其適合用于Roche 454和Life Technologies Ion Torrent系統所產生的測序數據。Blue還可讓我們校正與另一組讀長具有一致序列的一組讀長,這種能力已被用來糾正少數長的(昂貴的)Roche 454讀長——與來自更便宜的(但是更短)的Illumina讀長數據集具有一致序列。這種“交叉校正cross-correction”方法已被用來非常有效地提高幾種reference assemblies的質量,大小從細菌到飛蛾和草不等。


Blue及相關工具,可以從CSIRO Bioinformatics:www.bioinformatics.csiro.au/blue/下載。



參考閱讀:

Blue: correcting sequencing errors using consensus and context





吉林快3开奖号码今天