我科學(xué)家引入信息論 刷新基因測序精度
發(fā)布時(shí)間:2017-12-31
發(fā)布人:
科技日?qǐng)?bào)
選擇閱讀字號(hào):[
大
中
小 ]
自從Alpha Go成了圍棋界的No.1,“智能”的潛力被廣而周知,尤其對(duì)于大量的重復(fù)性工作,寫個(gè)“算法”讓電腦“跑”,得出的結(jié)果說不定比人強(qiáng)。
科學(xué)家不僅有足夠大的腦洞,還有著非凡的執(zhí)行力。這次是生物學(xué)者,他們借鑒了信息學(xué)科的思維,發(fā)明了基因測序的新方法。日前,一篇名為《基于信息理論來修正錯(cuò)誤的高準(zhǔn)確度熒光產(chǎn)生DNA測序方法》的論文在《自然·生物技術(shù)》上在線發(fā)表。研究者來自北京大學(xué)黃巖誼教授帶領(lǐng)的團(tuán)隊(duì)。
“這個(gè)設(shè)計(jì)很巧妙,”東南大學(xué)教授陸祖宏說,“或許在信息科學(xué)里是‘小伎倆’,但在生物學(xué)研究中是一種思維方式的突破,而且奏效了?!?nbsp;
測序精準(zhǔn)是“王道”
和體育界的“更快、更高、更遠(yuǎn)”類似,基因測序界的“金標(biāo)準(zhǔn)”是“更快、更長、更正確、還不貴”。
大名鼎鼎的“人類基因組計(jì)劃”基于1代測序技術(shù),耗時(shí)十余年測出一套完整的人類基因組密碼,而利用現(xiàn)有的2代測序技術(shù),這個(gè)時(shí)間可以縮短到半天內(nèi)。
“2代測序技術(shù),又叫高通量測序技術(shù),”陸祖宏介紹,它能夠在一個(gè)生物芯片上一次完成上億個(gè)反應(yīng)?!懊總€(gè)反應(yīng)一次測定一個(gè)堿基?!?nbsp;
生物芯片上的反應(yīng)單元非常小,幾平方微米的芯片上會(huì)包含1000個(gè)待測DNA單鏈分子,在DNA聚合酶(促成單個(gè)堿基聚合)的作用下,單個(gè)堿基會(huì)按照配對(duì)規(guī)律合成已有DNA分子的互補(bǔ)鏈,每次合成一個(gè),同時(shí)釋放出熒光。不同的堿基(A、T、C、G)帶有不同的熒光,檢測到熒光的不同就能判斷是什么堿基,進(jìn)而讀取DNA。
然而,每個(gè)單元中1000個(gè)分子的合成很難同步,“這個(gè)分子合成到99個(gè)時(shí),那個(gè)分子可能合成到101個(gè),這樣捕捉到的熒光波長將會(huì)有所差異,可信度顯著下降,”陸祖宏說,因此,2代基因測序儀的單次“讀長”目前的極限在200個(gè)堿基對(duì)(bp)。通過DNA二端測序能做到400個(gè)bp,但很難進(jìn)一步提高。讀得越長,測得序列的正確性就會(huì)越低。
在人體基因測序領(lǐng)域,這是一對(duì)相差懸殊的數(shù)字:30億、200。前者是人類基因組的堿基對(duì)數(shù)量,后者是目前測序準(zhǔn)確度最高(99%)的2代基因測序儀的單次“讀長”。可見以200為單位完成目標(biāo)DNA的測序,不可避免會(huì)造成大量的誤差。
測序技術(shù)正在向著滿足“金標(biāo)準(zhǔn)”的路上不斷推進(jìn),而此次我國學(xué)者發(fā)表的ECC(糾錯(cuò)編碼)測序法正是對(duì)現(xiàn)有手段的校正和補(bǔ)充。
“軟件推導(dǎo)”補(bǔ)硬件不足
生物學(xué)的研究方法一直是所見即所得,這次引入了信息論的方法,利用冗余信息、通過計(jì)算得出準(zhǔn)確結(jié)論,陸祖宏認(rèn)為,ECC測序法是對(duì)上面提到的2代測序方法的完善,其基本原理與2代測序方法相一致,令人稱道的是其打破思維定勢,迂回計(jì)算出堿基信息。
打個(gè)比方,要解答“甲乙丙丁分別住在哪個(gè)房子里,”之前的方式是直接開門看,ECC是通過測量得到一組邏輯題,諸如紅房子在藍(lán)房子的右邊,白房子的左邊;黃房子的主人來自香港,而且他的房子不在最左邊,愛吃比薩的人住在愛喝礦泉水的人的隔壁……等等提示,通過計(jì)算最終判斷出結(jié)論。
“之前一個(gè)一個(gè)測,現(xiàn)在是一群一群測,每次采樣量一樣,但是采樣方法不同了,單次看獲得的信息更多,”陸祖宏說,冗余信息可以互為校驗(yàn),將“精準(zhǔn)”的努力更多地讓“軟件推導(dǎo)”去承擔(dān),彌補(bǔ)酶的均一性、信號(hào)捕捉等硬件上無法避免的不足。
資料顯示,ECC編碼和解碼策略已被廣泛應(yīng)用在信息通訊和存儲(chǔ)等其他領(lǐng)域中,并被證實(shí)可以有效檢測和糾正數(shù)據(jù)傳輸或存儲(chǔ)時(shí)發(fā)生的錯(cuò)誤。此次研究團(tuán)隊(duì)在測序技術(shù)中首次引入ECC,并自主合成了低錯(cuò)誤率的熒光發(fā)生底物,二者結(jié)合在實(shí)驗(yàn)室搭建的原理樣機(jī)上獲得了單端測序超過200堿基讀長無錯(cuò)誤的實(shí)驗(yàn)結(jié)果。
“BT與IT的結(jié)合越來越成為業(yè)界共識(shí),”蔣慧說,就在12月初,谷歌發(fā)布了一款名為DeepVariant程序工具,稱其擁有人工智能(AI)深度學(xué)習(xí)能力,將2代測序技術(shù)中的片段精確的拼接,更準(zhǔn)確識(shí)別DNA序列中的突變。
應(yīng)用還有很長的路要走
“基因測序儀很復(fù)雜,涉及到光機(jī)電、生化反應(yīng)、軟件計(jì)算等不同領(lǐng)域,”作為國內(nèi)唯一自主生產(chǎn)基因測序儀的企業(yè)領(lǐng)頭人,華大智能副總裁蔣慧感觸頗深,她說,測序儀生產(chǎn)和制造的進(jìn)入門檻很高。
基因測序行業(yè)是有上下游鏈條的,“除了要生產(chǎn)出高精密的測序儀,還要配備有效的試劑盒,以及成套的解決方案,”蔣慧說,同時(shí)要具備與下游應(yīng)用開發(fā)企業(yè)的承接能力。“測序儀就好比一款手機(jī),要用得廣,要能夠搭載、兼容不同的‘APP’,即產(chǎn)前篩查、腫瘤檢測等應(yīng)用場景?!?nbsp;
經(jīng)過近5年的持續(xù)投資研發(fā),目前具有臨床測序儀量產(chǎn)能力的國產(chǎn)測序儀生產(chǎn)商只有華大基因一家,它的測序儀從研發(fā)到走向市場就是在一路“披荊斬棘”中走來?!拔覈斐鲎约旱臏y序儀之后,受到過國際大公司的排擠,例如通過試劑、酶等的供應(yīng)上實(shí)施封鎖的方法。”陸祖宏說,新技術(shù)就算好,讓市場“棄舊用新”的阻力卻是很大的,尤其國外企業(yè)的龍頭地位很難撼動(dòng)。
在巨大的阻力下,我國的測序儀產(chǎn)業(yè)雖步履蹣跚,但仍在崛起,除了黃巖誼團(tuán)隊(duì)宣布制造出樣機(jī)之外,我國南方科技大學(xué)瀚?;蛉涨鞍l(fā)布了全球最準(zhǔn)三代基因測序儀。
科學(xué)家不僅有足夠大的腦洞,還有著非凡的執(zhí)行力。這次是生物學(xué)者,他們借鑒了信息學(xué)科的思維,發(fā)明了基因測序的新方法。日前,一篇名為《基于信息理論來修正錯(cuò)誤的高準(zhǔn)確度熒光產(chǎn)生DNA測序方法》的論文在《自然·生物技術(shù)》上在線發(fā)表。研究者來自北京大學(xué)黃巖誼教授帶領(lǐng)的團(tuán)隊(duì)。
“這個(gè)設(shè)計(jì)很巧妙,”東南大學(xué)教授陸祖宏說,“或許在信息科學(xué)里是‘小伎倆’,但在生物學(xué)研究中是一種思維方式的突破,而且奏效了?!?nbsp;
測序精準(zhǔn)是“王道”
和體育界的“更快、更高、更遠(yuǎn)”類似,基因測序界的“金標(biāo)準(zhǔn)”是“更快、更長、更正確、還不貴”。
大名鼎鼎的“人類基因組計(jì)劃”基于1代測序技術(shù),耗時(shí)十余年測出一套完整的人類基因組密碼,而利用現(xiàn)有的2代測序技術(shù),這個(gè)時(shí)間可以縮短到半天內(nèi)。
“2代測序技術(shù),又叫高通量測序技術(shù),”陸祖宏介紹,它能夠在一個(gè)生物芯片上一次完成上億個(gè)反應(yīng)?!懊總€(gè)反應(yīng)一次測定一個(gè)堿基?!?nbsp;
生物芯片上的反應(yīng)單元非常小,幾平方微米的芯片上會(huì)包含1000個(gè)待測DNA單鏈分子,在DNA聚合酶(促成單個(gè)堿基聚合)的作用下,單個(gè)堿基會(huì)按照配對(duì)規(guī)律合成已有DNA分子的互補(bǔ)鏈,每次合成一個(gè),同時(shí)釋放出熒光。不同的堿基(A、T、C、G)帶有不同的熒光,檢測到熒光的不同就能判斷是什么堿基,進(jìn)而讀取DNA。
然而,每個(gè)單元中1000個(gè)分子的合成很難同步,“這個(gè)分子合成到99個(gè)時(shí),那個(gè)分子可能合成到101個(gè),這樣捕捉到的熒光波長將會(huì)有所差異,可信度顯著下降,”陸祖宏說,因此,2代基因測序儀的單次“讀長”目前的極限在200個(gè)堿基對(duì)(bp)。通過DNA二端測序能做到400個(gè)bp,但很難進(jìn)一步提高。讀得越長,測得序列的正確性就會(huì)越低。
在人體基因測序領(lǐng)域,這是一對(duì)相差懸殊的數(shù)字:30億、200。前者是人類基因組的堿基對(duì)數(shù)量,后者是目前測序準(zhǔn)確度最高(99%)的2代基因測序儀的單次“讀長”。可見以200為單位完成目標(biāo)DNA的測序,不可避免會(huì)造成大量的誤差。
測序技術(shù)正在向著滿足“金標(biāo)準(zhǔn)”的路上不斷推進(jìn),而此次我國學(xué)者發(fā)表的ECC(糾錯(cuò)編碼)測序法正是對(duì)現(xiàn)有手段的校正和補(bǔ)充。
“軟件推導(dǎo)”補(bǔ)硬件不足
生物學(xué)的研究方法一直是所見即所得,這次引入了信息論的方法,利用冗余信息、通過計(jì)算得出準(zhǔn)確結(jié)論,陸祖宏認(rèn)為,ECC測序法是對(duì)上面提到的2代測序方法的完善,其基本原理與2代測序方法相一致,令人稱道的是其打破思維定勢,迂回計(jì)算出堿基信息。
打個(gè)比方,要解答“甲乙丙丁分別住在哪個(gè)房子里,”之前的方式是直接開門看,ECC是通過測量得到一組邏輯題,諸如紅房子在藍(lán)房子的右邊,白房子的左邊;黃房子的主人來自香港,而且他的房子不在最左邊,愛吃比薩的人住在愛喝礦泉水的人的隔壁……等等提示,通過計(jì)算最終判斷出結(jié)論。
“之前一個(gè)一個(gè)測,現(xiàn)在是一群一群測,每次采樣量一樣,但是采樣方法不同了,單次看獲得的信息更多,”陸祖宏說,冗余信息可以互為校驗(yàn),將“精準(zhǔn)”的努力更多地讓“軟件推導(dǎo)”去承擔(dān),彌補(bǔ)酶的均一性、信號(hào)捕捉等硬件上無法避免的不足。
資料顯示,ECC編碼和解碼策略已被廣泛應(yīng)用在信息通訊和存儲(chǔ)等其他領(lǐng)域中,并被證實(shí)可以有效檢測和糾正數(shù)據(jù)傳輸或存儲(chǔ)時(shí)發(fā)生的錯(cuò)誤。此次研究團(tuán)隊(duì)在測序技術(shù)中首次引入ECC,并自主合成了低錯(cuò)誤率的熒光發(fā)生底物,二者結(jié)合在實(shí)驗(yàn)室搭建的原理樣機(jī)上獲得了單端測序超過200堿基讀長無錯(cuò)誤的實(shí)驗(yàn)結(jié)果。
“BT與IT的結(jié)合越來越成為業(yè)界共識(shí),”蔣慧說,就在12月初,谷歌發(fā)布了一款名為DeepVariant程序工具,稱其擁有人工智能(AI)深度學(xué)習(xí)能力,將2代測序技術(shù)中的片段精確的拼接,更準(zhǔn)確識(shí)別DNA序列中的突變。
應(yīng)用還有很長的路要走
“基因測序儀很復(fù)雜,涉及到光機(jī)電、生化反應(yīng)、軟件計(jì)算等不同領(lǐng)域,”作為國內(nèi)唯一自主生產(chǎn)基因測序儀的企業(yè)領(lǐng)頭人,華大智能副總裁蔣慧感觸頗深,她說,測序儀生產(chǎn)和制造的進(jìn)入門檻很高。
基因測序行業(yè)是有上下游鏈條的,“除了要生產(chǎn)出高精密的測序儀,還要配備有效的試劑盒,以及成套的解決方案,”蔣慧說,同時(shí)要具備與下游應(yīng)用開發(fā)企業(yè)的承接能力。“測序儀就好比一款手機(jī),要用得廣,要能夠搭載、兼容不同的‘APP’,即產(chǎn)前篩查、腫瘤檢測等應(yīng)用場景?!?nbsp;
經(jīng)過近5年的持續(xù)投資研發(fā),目前具有臨床測序儀量產(chǎn)能力的國產(chǎn)測序儀生產(chǎn)商只有華大基因一家,它的測序儀從研發(fā)到走向市場就是在一路“披荊斬棘”中走來?!拔覈斐鲎约旱臏y序儀之后,受到過國際大公司的排擠,例如通過試劑、酶等的供應(yīng)上實(shí)施封鎖的方法。”陸祖宏說,新技術(shù)就算好,讓市場“棄舊用新”的阻力卻是很大的,尤其國外企業(yè)的龍頭地位很難撼動(dòng)。
在巨大的阻力下,我國的測序儀產(chǎn)業(yè)雖步履蹣跚,但仍在崛起,除了黃巖誼團(tuán)隊(duì)宣布制造出樣機(jī)之外,我國南方科技大學(xué)瀚?;蛉涨鞍l(fā)布了全球最準(zhǔn)三代基因測序儀。