媒體報道

《深圳商報》:深圳先進技術研究院開發出一套基因分析軟件 基因大數據,有了它可快速解讀

時間:2018-11-02  來源: 文本大小:【 |  | 】  【打印

  一個人的全基因測序數據量有多大?答案是約300G。

  “一個人有46條染色體,全部讀取存儲下來約3G。而在實際測序中通常需要復制50-100份,這樣一來,一個人的數據量可達300G。”近日在接受記者采訪時,深圳先進技術研究院魏彥杰博士稱。

  面對海量基因數據,傳統電腦的分析工具已經遠遠無法滿足高效分析的需求。如何破題?魏彥杰博士團隊與華大基因及美國阿貢國家實驗室合作,借助超級計算機,開發了一套快速分析基因大數據的軟件算法,并將數據結果用于探尋自閉癥等復雜疾病的病因。

  把剪碎的基因片段拼起來

  近年來,隨著基因測序技術的快速發展,全球范圍內產生了海量的基因數據。據悉,僅華大基因目前的基因數據總量就達到約50PB。假設一部1080P高清電影約20G,那么華大基因的數據量大約相當于262萬部高清電影。如此龐大的規模,意味著不菲的分析費用。魏彥杰團隊研發的軟件系統借助超級計算機,實現了快速基因組組裝。

  什么是基因組組裝?這要從第二代基因測序原理說起。據魏彥杰介紹,在第二代基因測序中,46條染色體在實驗過程中被剪成很小的基因片段。

  “正常的基因長度含幾千甚至上萬個堿基,而在測序中被剪成了約100個堿基的長度。”魏彥杰說,“就像給你一本剪碎的百科全書,拿到任何一個碎片都讀不出它的全貌。而第二代基因測序給出的就是這樣一堆碎片,現在要用計算機的方法將它的每頁每章節恢復出來。”

  據介紹,基于超級計算機Mira,魏彥杰團隊研發的軟件系統可在10分鐘內處理4T的基因數據,數據量相當于204部高清電影。作為開源系統,這一系統可以在所有超算上運行。自2014年上線以來,下載量達600多次,已被阿貢國家實驗室、俄亥俄州立大學等機構廣泛使用。

  強大的超算需要優質的軟件

  在對基因大數據的快速分析處理中,超級計算機扮演了重要角色。據魏彥杰介紹,由于數據量巨大,只有利用超算的分布式內存,通過聯合使用的方式才能完成大數據的導入和計算。

  也就是說,一臺計算機無法完成的工作,現在通過多臺計算機合作可以完成。如何提高計算機間的通訊效率,使每臺計算機發揮最強計算能力,則需要通過算法設計來實現。

  “現在我們有了E級超算,但怎么用是關鍵。這么多資源,這么大的機器,需要運行更高效的軟件。”魏彥杰說,中國的超算硬件已經處于世界前沿,但軟件相對滯后,尤其是眾多超算的商業軟件仍由國外主導,我國需要更多優質軟件,以更好發揮超算的作用。

  完成基因測序后,將測序結果用于復雜疾病的機理研究是主要應用方向之一。據介紹,復雜疾病不由單一基因決定,而受到多基因遺傳和環境等復雜因素的影響,因此需要借助多種數據來研究復雜疾病病因。自閉癥,就是其中一種。

  魏彥杰介紹,自閉癥是一種由多個基因決定的復雜性遺傳疾病,如果能通過基因檢測等手段,對自閉癥患兒進行早期篩查,就能盡早進行康復訓練。為此,魏彥杰團隊與深圳市兒童醫院等機構合作,從基因角度做分析。

  《深圳商報》2018年10月18日報道http://szsb.sznews.com/PC/layout/201810/18/node_A05.html#content_484363 

体彩幸运赛车直播视频