2萬多個(gè)人類基因能編碼多少蛋白質(zhì)
發(fā)布時(shí)間:2015-08-11
發(fā)布人:
健康報(bào)
選擇閱讀字號(hào):[
大
中
小 ]
人類基因組編碼的蛋白質(zhì)數(shù)量不少于20萬個(gè)。上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院韋朝春副教授領(lǐng)銜的研究團(tuán)隊(duì),通過DNA序列并結(jié)合其他證據(jù)預(yù)測人類基因組蛋白質(zhì)得出上述結(jié)論。以博士研究生胡智強(qiáng)為第一作者的相關(guān)學(xué)術(shù)論文,日前在線發(fā)表于《自然》系列刊物《科學(xué)報(bào)告》上。專家認(rèn)為,該研究提高了對基因組復(fù)雜性的理解,為生物醫(yī)學(xué)研究提供了更完整的人類參考基因組注釋。
據(jù)介紹,目前人們已經(jīng)知道能夠編碼蛋白質(zhì)的人類基因數(shù)量是2萬多個(gè),但由于可變剪切機(jī)制,同一個(gè)基因可以表達(dá)成多個(gè)不同的蛋白質(zhì),這2萬多個(gè)人類基因究竟能編碼多少個(gè)蛋白質(zhì)目前仍是個(gè)謎。雖然各種高通量測序方法進(jìn)展飛速,但很多蛋白質(zhì)只在特定組織、一定的發(fā)育階段或者特定條件下才表達(dá),因此通過實(shí)驗(yàn)的方法檢測人類所有蛋白質(zhì),在目前技術(shù)條件下幾乎不可能。然而,從人類基因組序列直接預(yù)測蛋白質(zhì)序列的方法可以避免這個(gè)缺陷。
韋朝春研究團(tuán)隊(duì)首先開發(fā)了一個(gè)直接從基因組序列從頭預(yù)測可變剪切的方法,結(jié)合現(xiàn)有的海量基因表達(dá)數(shù)據(jù),包括轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),找到了約3萬個(gè)現(xiàn)有數(shù)據(jù)庫中沒有的蛋白質(zhì)序列。隨機(jī)抽樣并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證表明,約85%的預(yù)測結(jié)果可以得到實(shí)驗(yàn)驗(yàn)證。這些蛋白質(zhì)序列使現(xiàn)有數(shù)據(jù)庫中完整的蛋白質(zhì)序列數(shù)量增加到約9萬個(gè)。和公共數(shù)據(jù)庫中已有的蛋白質(zhì)相比,這些新發(fā)現(xiàn)的蛋白質(zhì)的表達(dá)具有更高的組織特異性,表達(dá)量相對較低,因而也更難被發(fā)現(xiàn)。根據(jù)這些結(jié)果,科研人員預(yù)測人類基因組編碼的蛋白質(zhì)數(shù)量不少于20萬個(gè)。
澳大利亞阿德萊德大學(xué)、美國范德堡大學(xué)、中國第二軍醫(yī)大學(xué)和上海生物信息技術(shù)研究中心參與了該項(xiàng)目的合作研究。
據(jù)介紹,目前人們已經(jīng)知道能夠編碼蛋白質(zhì)的人類基因數(shù)量是2萬多個(gè),但由于可變剪切機(jī)制,同一個(gè)基因可以表達(dá)成多個(gè)不同的蛋白質(zhì),這2萬多個(gè)人類基因究竟能編碼多少個(gè)蛋白質(zhì)目前仍是個(gè)謎。雖然各種高通量測序方法進(jìn)展飛速,但很多蛋白質(zhì)只在特定組織、一定的發(fā)育階段或者特定條件下才表達(dá),因此通過實(shí)驗(yàn)的方法檢測人類所有蛋白質(zhì),在目前技術(shù)條件下幾乎不可能。然而,從人類基因組序列直接預(yù)測蛋白質(zhì)序列的方法可以避免這個(gè)缺陷。
韋朝春研究團(tuán)隊(duì)首先開發(fā)了一個(gè)直接從基因組序列從頭預(yù)測可變剪切的方法,結(jié)合現(xiàn)有的海量基因表達(dá)數(shù)據(jù),包括轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),找到了約3萬個(gè)現(xiàn)有數(shù)據(jù)庫中沒有的蛋白質(zhì)序列。隨機(jī)抽樣并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證表明,約85%的預(yù)測結(jié)果可以得到實(shí)驗(yàn)驗(yàn)證。這些蛋白質(zhì)序列使現(xiàn)有數(shù)據(jù)庫中完整的蛋白質(zhì)序列數(shù)量增加到約9萬個(gè)。和公共數(shù)據(jù)庫中已有的蛋白質(zhì)相比,這些新發(fā)現(xiàn)的蛋白質(zhì)的表達(dá)具有更高的組織特異性,表達(dá)量相對較低,因而也更難被發(fā)現(xiàn)。根據(jù)這些結(jié)果,科研人員預(yù)測人類基因組編碼的蛋白質(zhì)數(shù)量不少于20萬個(gè)。
澳大利亞阿德萊德大學(xué)、美國范德堡大學(xué)、中國第二軍醫(yī)大學(xué)和上海生物信息技術(shù)研究中心參與了該項(xiàng)目的合作研究。