首頁->新聞動態

暨南大學Human Genetics發文 建立個人基因組組裝質控標準

  日期:2019-07-08  來源:生物通


近年來,隨著長讀長的三代測序(單分子測序)技術的發展,基因組組裝的完整性有了大幅度提升。2016年,暨南大學等單位的研究人員利用三代測序和二代測序相結合的方式,組裝出了迄今為止完整度最高的個人基因組“華夏一號”漢族個人基因組(HX1)。 



  

隨著測序技術的飛速發展,組裝一個個人的基因組的成本在快速下降。1990-2003年,六國科學家耗費13年時間和30億美元,利用海量的BAC克隆,組裝成功第一個人的個人基因組,人類基因組計劃宣告完成。2007年,借助二代測序儀454,人們組裝成了第二個個人基因組,耗時4個月,成本150萬美元,但此時費時費力的BAC克隆仍然是拼接的必需。2008年,李瑞強等人發明了僅使用二代測序法拼接大型真核基因組的方法,雖然受限于Illumina測序儀讀長短的劣勢,拼接完整度有限,但由于其繞開了費時費力的BAC克隆,讓個人基因組拼接的速度提升到了一個新的境界,成本也因此進一步下降。近年來,隨著長讀長的三代測序(單分子測序)技術的發展,基因組組裝的完整性有了大幅度提升。2016年,暨南大學等單位的研究人員利用三代測序和二代測序相結合的方式,組裝出了迄今為止完整度最高的個人基因組“華夏一號”漢族個人基因組(HX1)。該基因組填補了現行標準人類參考基因組GRCh38中數百個空缺,并測定了12.8Mb的漢族人特有序列,樹立了個人基因組拼接的新高度。


眾所周知,由于各民族的遺傳背景差異很大,各民族的基因序列和基因組結構也有其獨特之處。以高加索人種(白人)和非洲人為對象組裝而成的標準人類參考基因組GRCh37/38等必然無法反映其他種族人群的特有序列和結構,在精準醫學領域可能造成一定的誤差。使用這些從頭組裝出的“民族特異性”個人基因組,理論上應該更貼金該民族的基因組,理應適合該民族的精準醫學研究。那么事實究竟是不是這樣呢?


暨南大學張弓教授研究組最新發表的論文對此給出了否定的回答。不僅如此,他們還發現了現有的各種個人基因組都有嚴重的錯誤,不適合精準醫學使用。


研究者以目前組裝完整度最高的華夏一號(HX1)漢族人基因組為例,將數十個漢族人的全基因組、全外顯子組測序的數據集分別比對到HX1和GRCh38上,使用的是目前準確率和穩健性最高的比對算法FANSe3,。結果發現HX1的比對率更低、錯誤率更高。這與預期完全相反。


由于三代測序的錯誤率普遍高達12-20%,因此研究者先是懷疑三代測序組裝出的基因組序列中含有大量的單堿基錯誤。于是,研究組用之前發表的方法,使用FANSe算法和二代測序數據對基因組進行修正。這種方法在以前被近2000個位點的一代測序驗證為無一假陽性、無一假陰性,準確率極高。在這種極為精密方法的修正下,確實修正了HX1基因組中數百萬個單堿基錯誤。然而,即便是基本修正完畢的基因組,仍然在比對漢族人測序數據時遜于GRCh38。這一結果說明,HX1的主要問題并不是在單堿基錯誤上,而很有可能在于大片段組裝錯誤——這種問題更加致命,因為沒有任何后期手段能予以有效糾正。


在研究團隊的仔細分析下,HX1大片段組裝錯誤的問題逐漸浮出水面,并且問題觸目驚心。


首先,研究者注意到HX1無法組裝出完整的線粒體基因組。眾所周知,線粒體是約17kb的環狀DNA,在人類中高度保守、不可或缺。HX1的二代測序數據比對到GRCh38上,得到了完整覆蓋的線粒體基因組,證明這個人的線粒體是完整的。然而HX1個人基因組中,線粒體卻分散在了7個scaffold中,而這些scaffold均是來自于核染色體的片段。這很清晰地證明了HX1對線粒體的組裝存在嚴重錯誤。研究者又分析了Venter, NA12878, AK1等個人基因組,雖然這些個人基因組是用不同的方法進行組裝,但他們無一例外地都未能組裝出線粒體,說明現有的個人基因組組裝技術存在致命缺陷。


不僅如此,研究者還發現HX1基因組中許多基因存在大量的外顯子缺失情況,其中包括數十個對人細胞極端重要的管家基因。HX1的二代測序數據則清楚表明了這些外顯子實際上是存在的,卻在HX1的三代測序組裝的過程中丟失掉了。這些丟失掉的外顯子中包含了大量已知與疾病密切相關聯的SNP位點,使HX1基因組不適用于精準醫學的目的。與其使用HX1作為漢族人的參考基因組,還不如使用GRCh38參考基因組,并使用高容錯性、高穩健性、高精度的FANSe3來進行比對。


研究者分析認為,雖然三代測序的長讀長簡化了基因組的初級組裝,但其超高的錯誤率造成了普遍性的大片段組裝錯誤。在基因組中普遍存在著一些頗為相似的區段,例如核染色體中有一些與線粒體相似的區段NUMT,這些區段與線粒體之間的序列相似度最高可達94%。如此高的相似度根本無法用錯誤率高達12-20%的三代測序來分辨,因此三代測序數據在組裝這些區段時極易出錯。這不是算法能解決的事,因為三代測序原始錯誤率就遠高于基因組中的相似區段的差異。這個問題理論上可以通過拉高通量來解決,但三代測序的成本迄今為止依然遠高于二代測序,且由于錯誤率太高,HX1以102x的深度依然遠遠解決不了這個問題,而傳統的二代測序進行拼接只需要30x的深度即可,這使得三代測序糾錯的策略從經濟上變得不可行。一旦三代測序組裝失敗,這種錯誤根本無法用短讀長、錯誤率低的二代測序來予以彌補。


那么,為什么標準基因組GRCh38沒有這個問題呢?這是因為GRCh38為了追求組裝質量,不辭辛勞地使用BAC克隆,將人基因組打碎成數萬個長度約150-350kb的BAC,這樣就可以先將這些BAC進行分別的測序組裝,采用高精度的二代測序,在這么小的片段上可以得到非常好的組裝效果,而且很難在這么小的片段里遇上相似的序列,自然不容易遇到NUMT與線粒體序列相似這種問題。然后再將這些高精度的BAC片段組裝為染色體。而2008年李瑞強所發明的直接使用大規模測序的方法組裝基因組,雖然繞過了費時費力的BAC,但使得組裝規模由幾百kb陡然增大至3Gb,并會遇到極多的高相似序列,再加上測序儀的錯誤,使得大片段組裝正確性成為了數學上不可完成的任務。這個問題不僅在組裝個人基因組上會出現,在組裝其他物種基因組上同樣也會出現。

因此,研究者提出了個人基因組組裝的質控標準:


1. 使用原始錯誤率低于5%的測序技術。

2. 使用BAC克隆。

3. 同種族的測序結果對個人基因組的比對率應該好于其他種族基因組(包括GRCh38),錯誤率應該低于其他種族基因組。

4. 線粒體必須作為獨立且完整的一個contig存在。

5. 看家基因的完整性必須得到保證。


雖然這項研究結果給目前三代測序組裝基因組潑了一盆冷水,但也是對這個領域的數據質量提出了可行的標準。目前,大規模測序技術在臨床實踐中飽受不準確、不穩健的詬病,數據質量控制標準是解決這些問題的核心。本研究為基因組組裝提供了質控標準與行動指引,將有助于大規模測序技術規范化、標準化、精準化。


本研究是國家重點研發計劃《醫學生命組學數據質量控制關鍵技術研發與應用》的成果之一。


參考資料:

Mai Z, Liu W, Ding W, Zhang G *


Misassembly of long reads undermines de novo assembled ethnicity-specific genomes: Validation in a Chinese Han Population


Human Genetics (2019) https://doi.org/10.1007/s00439-019-02032-6.


本文來源暨南大學


本文轉自:生物通


免責聲明:基因測序產業網轉載文章出于傳遞產業信息之目的,且明確注明來源,如有侵權請聯系刪除。本平臺對轉載文章保持中立,不對所包含內容的準確性、可靠性或完整性提供明示或暗示保證,僅作參考。



吉林快3开奖号码今天