首 頁 資訊 產(chǎn)業(yè)動(dòng)態(tài) 發(fā)明·創(chuàng)新 探索·發(fā)現(xiàn) 科學(xué)麻辣燙 科技人物 專家講壇 新基建 院士知播

首頁>科技>資訊

“阿爾法折疊”迎來對(duì)手,新AI預(yù)測(cè)微生物6億多蛋白結(jié)構(gòu)

2022年11月03日 09:30  |  作者:劉霞  |  來源:科技日?qǐng)?bào) 分享到: 

英國“深度思維”公司今年8月曾宣布,其開發(fā)的人工智能(AI)程序“阿爾法折疊”已預(yù)測(cè)出約100萬個(gè)物種的超過2億種蛋白質(zhì)的結(jié)構(gòu),涵蓋科學(xué)界已編錄的幾乎每一種?,F(xiàn)在,元宇宙平臺(tái)公司(Meta)研究人員利用人工智能ESMFold預(yù)測(cè)了來自細(xì)菌、病毒和其他尚未被表征微生物的6億多種蛋白質(zhì)的結(jié)構(gòu)。相關(guān)研究已經(jīng)提交生物預(yù)印本網(wǎng)站biorxiv.org。

ESM宏基因組圖譜數(shù)據(jù)庫包含6.17億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。圖片來源:《自然》網(wǎng)站

在最新研究中,Meta AI蛋白質(zhì)團(tuán)隊(duì)使用“大型語言模型”預(yù)測(cè)了這些蛋白質(zhì)的結(jié)構(gòu)。要構(gòu)建能通過幾個(gè)字母或單詞預(yù)測(cè)文本的工具,離不開大型語言模型的基礎(chǔ)。語言模型通常需要大量文本進(jìn)行訓(xùn)練,為將其應(yīng)用于蛋白質(zhì),研究團(tuán)隊(duì)用已知的蛋白質(zhì)序列訓(xùn)練它們,這些已知蛋白質(zhì)可由20個(gè)不同氨基酸組成的鏈來表達(dá),每個(gè)氨基酸由一個(gè)字母表示。然后,ESMFold學(xué)會(huì)了用模糊的氨基酸比例“自動(dòng)完成”蛋白質(zhì)。

團(tuán)隊(duì)負(fù)責(zé)人亞歷山大·里維斯表示,這些訓(xùn)練讓ESMFold對(duì)包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網(wǎng)絡(luò)能將這些了解到的信息與已知蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息結(jié)合,生成預(yù)測(cè)結(jié)構(gòu)。

隨后,他們?cè)谝粋€(gè)數(shù)據(jù)庫上運(yùn)用這一模型,該數(shù)據(jù)庫由來自土壤、海水、人類腸道、皮膚和其他微生物棲息地的“宏基因組”DNA組成,其中絕大多數(shù)DNA條目編碼潛在蛋白質(zhì),來自從未被培養(yǎng)過也不為人所知的生物體。總體而言,ESMFold預(yù)測(cè)了超6.17億種蛋白質(zhì)的結(jié)構(gòu),且只花了兩周時(shí)間。而“阿爾法折疊”預(yù)測(cè)一種結(jié)構(gòu)可能需要幾分鐘。

團(tuán)隊(duì)指出,ESMFold雖然不像“阿爾法折疊”那么準(zhǔn)確,但在預(yù)測(cè)結(jié)構(gòu)方面的速度要快60倍,這意味著他們可將結(jié)構(gòu)預(yù)測(cè)擴(kuò)展到更大的數(shù)據(jù)庫。

里維斯表示:“這些來自土壤、海水和人體的微生物分子是我們了解最少的結(jié)構(gòu),最新研究有助于我們更進(jìn)一步洞悉生物學(xué)?!?/p>

總編輯圈點(diǎn):

人們形容蛋白質(zhì)時(shí),常說它乃生命之基石。但蛋白質(zhì)的意義其實(shí)與其結(jié)構(gòu)密切相關(guān),因此如果能更深入的了解其結(jié)構(gòu),就可以更好地明確其工作原理,從而加速幾乎所有生物學(xué)領(lǐng)域的研究,譬如為疾病設(shè)計(jì)新的療法或疫苗。這也是目前多家團(tuán)隊(duì)致力于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的主要目的。現(xiàn)在,這一預(yù)測(cè)已涵蓋了整個(gè)蛋白質(zhì)世界,包括動(dòng)物、植物、細(xì)菌、真菌和其他生物體的預(yù)測(cè)結(jié)構(gòu),可以預(yù)見,這些成果除了幫助攻克生命科學(xué)瓶頸外,也將在解決可持續(xù)性、糧食安全等重要問題上開辟新機(jī)。

編輯:馬嘉悅

相關(guān)新聞