?#25945;?#25253;道

《深圳商报》:深圳先进技术研究院开发出一套基因分析软件 基因大数据,有了它可快速解读

时间:2018-11-02  来源: 文本大小:【 |  | 】  【打印

  一个人的全基因测序数据量有多大?答案是约300G。

  “一个人有46条?#26087;?#20307;,全部读取存储下来约3G。而在?#23548;?#27979;序中通常需要复制50-100份,这样一来,一个人的数据量可达300G。”近日在?#37038;?#35760;者采访?#20445;?#28145;圳先进技术研究院魏彦杰博士称。

  面?#38498;?#37327;基因数据,传统电脑的分析工具已经?#23545;?#26080;法满足高效分析的需求。如何破题?魏彦杰博?#23458;?#38431;与华大基因及美国阿贡国家实验室合作,借助超级计算机,开发了一套快速分析基因大数据的软件算法,并将数据结果用于探寻自闭症等复杂疾病的病因。

  把剪碎的基因片段拼起来

  近年来,随着基因测序技术的快速发展,全球?#27573;?#20869;产生了海量的基因数据。据悉,仅华大基因目前的基因数据总量就达到约50PB。假设一部1080P高清电影约20G,那么华大基因的数据量大约相当于262万部高清电影。如此庞大的规模,意味着不菲的分析费用。魏彦杰团队研发的软件系统借助超级计算机,实现了快速基因组组装。

  什?#35789;?#22522;因组组装?#31354;?#35201;从第二代基因测序原理说起。据魏彦杰介绍,在第二代基因测序中,46条?#26087;?#20307;在实验过程中被剪成很小的基因片段。

  “正常的基因长度含几千甚至上万个碱基,而在测序中被剪成了约100个碱基的长度。”魏彦杰说,“就像给你一本剪碎的百科全书,拿到?#39759;?#19968;个碎片都读不出它的全?#30149;?#32780;第二代基因测序给出的就是这样一堆碎片,现在要用计算机的方法将它的每页?#31354;陆諢指?#20986;来。”

  据介绍,基于超级计算机Mira,魏彦杰团队研发的软件系统可在10分钟内处理4T的基因数据,数据量相当于204部高清电影。作为开源系?#24120;?#36825;一系统可以在所有超算上运?#23567;?#33258;2014年上线以来,下载量达600多次,已被阿贡国家实验室、俄亥俄州立大学等机构广泛使用。

  强大的超算需要优质的软件

  在对基因大数据的快速分析处理中,超级计算机扮演了重要角色。据魏彦杰介绍,由于数据量巨大,只有利用超算的分?#38469;?#20869;存,通过联合使用的方式才能完成大数据的导入?#22270;?#31639;。

  也就是说,一台计算机无法完成的工作,现在通过多台计算机合作可以完成。如何提高计算机间的通讯效率,使每台计算机发挥最强计算能力,则需要通过算法设计?#35789;?#29616;。

  “现在我们有了E级超算,但怎么用是关键。这么多资源,这么大的机器,需要运行更高效的软件。”魏彦杰说,中国的超算硬件已经处于世界前沿,但软件相对滞后,尤其是众多超算的商业软件仍由国外主导,我国需要更多优质软件,以更好发挥超算的作用。

  完成基因测序后,将测序结果用于复杂疾病的机理研究是主要应用方向之一。据介绍,复杂疾病不由单一基因决定,而受到多基因遗传和环境等复杂因素的影响,因此需要借助多种数据来研究复杂疾病病因。自闭症,就是其中一种。

  魏彦杰介绍,自闭症是一种由多个基因决定的复?#26377;?#36951;传疾病,如果能通过基因检测等手段,对自闭症?#32423;?#36827;行早期筛查,就能尽早进行康复训练。为此,魏彦杰团队与深圳市儿童医院等机构合作,从基因角度做分析。

  《深圳商报》2018年10月18日报道

体彩幸运赛车直播视频