人工智能幫助揭開海洋和我們腸道中病毒的奧秘
病毒是微生物生態(tài)系統(tǒng)中一種神秘且知之甚少的力量。研究人員知道,它們可以感染、殺死和操縱人類和細(xì)菌細(xì)胞幾乎每個(gè)環(huán)境,從海洋到你的腸道。
但科學(xué)家們還沒(méi)有全面了解病毒如何影響周圍的環(huán)境,這在很大程度上是因?yàn)樗鼈兙哂蟹欠驳亩鄻有院?a>快速進(jìn)化的能力.
微生物群落很難在實(shí)驗(yàn)室環(huán)境中進(jìn)行研究。許多微生物的培養(yǎng)具有挑戰(zhàn)性,它們的自然環(huán)境已經(jīng)更多功能影響他們的成功或失敗比科學(xué)家在實(shí)驗(yàn)室中可以復(fù)制的要多。
所以像我這樣的系統(tǒng)生物學(xué)家通常對(duì)樣本中存在的所有 DNA 進(jìn)行測(cè)序——例如,來(lái)自患者的糞便樣本——分離出病毒DNA序列然后批注各部分編碼蛋白質(zhì)的病毒基因組。
這些關(guān)于基因的位置、結(jié)構(gòu)和其他特征的注釋有助于研究人員了解病毒在環(huán)境中可能執(zhí)行的功能,并幫助識(shí)別不同種類的病毒。
研究人員通過(guò)將樣本中的病毒序列與先前注釋的序列進(jìn)行匹配來(lái)注釋病毒公共數(shù)據(jù)庫(kù)病毒基因序列.
然而,科學(xué)家們正在鑒定從環(huán)境中收集的DNA中的病毒序列遠(yuǎn)遠(yuǎn)超過(guò)的速度我們注釋這些基因的能力。這意味著研究人員正在使用不可接受的一小部分可用數(shù)據(jù)來(lái)發(fā)表有關(guān)微生物生態(tài)系統(tǒng)中病毒的發(fā)現(xiàn)。
為了提高研究人員在全球范圍內(nèi)研究病毒的能力,我和我的團(tuán)隊(duì)已經(jīng)開發(fā)了一種新穎的方法使用以下方法注釋病毒序列人工智能.
通過(guò)類似于 ChatGPT 等大型語(yǔ)言模型但特定于蛋白質(zhì)的蛋白質(zhì)語(yǔ)言模型,我們能夠?qū)σ郧翱床灰姷牟《拘蛄羞M(jìn)行分類。這為研究人員打開了大門,不僅可以更多地了解病毒,還可以解決當(dāng)前技術(shù)難以回答的生物學(xué)問(wèn)題
使用 AI 注釋病毒
大型語(yǔ)言模型使用大型文本數(shù)據(jù)集中單詞之間的關(guān)系,為未明確“教”出答案的問(wèn)題提供潛在答案。
例如,當(dāng)你問(wèn)聊天機(jī)器人“法國(guó)的首都是什么?”時(shí),該模型不會(huì)在首都城市表中查找答案。相反,它正在利用其對(duì)大量文件和信息數(shù)據(jù)集的訓(xùn)練來(lái)推斷答案:“法國(guó)的首都是巴黎。
同樣地蛋白質(zhì)語(yǔ)言模型是經(jīng)過(guò)訓(xùn)練的人工智能算法,可以識(shí)別來(lái)自世界各地環(huán)境的數(shù)十億個(gè)蛋白質(zhì)序列之間的關(guān)系。通過(guò)這種訓(xùn)練,他們可能能夠推斷出一些關(guān)于病毒蛋白的本質(zhì)及其功能的信息。
我們想知道蛋白質(zhì)語(yǔ)言模型是否可以回答這個(gè)問(wèn)題:“給定所有注釋的病毒基因序列,這個(gè)新序列的功能是什么?
在我們的概念驗(yàn)證,我們?cè)陬A(yù)先訓(xùn)練的蛋白質(zhì)語(yǔ)言模型中對(duì)先前注釋的病毒蛋白序列進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,然后使用它們來(lái)預(yù)測(cè)新病毒蛋白序列的注釋。
我們的方法使我們能夠探測(cè)模型在導(dǎo)致特定注釋的特定病毒序列中“看到”的內(nèi)容。這有助于根據(jù)它們的特定功能或它們的基因組排列方式來(lái)識(shí)別感興趣的候選蛋白質(zhì),從而篩選出大量數(shù)據(jù)集的搜索空間。
通過(guò)識(shí)別更遠(yuǎn)相關(guān)的病毒基因功能,蛋白質(zhì)語(yǔ)言模型可以補(bǔ)充當(dāng)前的方法,為微生物學(xué)提供新的見解。
例如,我和我的團(tuán)隊(duì)能夠使用我們的模型來(lái)發(fā)現(xiàn)一個(gè)以前未識(shí)別的整合酶– 一種可以將遺傳信息移入和移出細(xì)胞的蛋白質(zhì) – 在全球豐富的海洋皮藍(lán)藻中原綠球菌和聚球菌.
值得注意的是,這種整合酶可能能夠?qū)⒒蛞迫牒鸵瞥龊Q笾械倪@些細(xì)菌種群,并使這些微生物能夠更好地適應(yīng)不斷變化的環(huán)境。
我們的語(yǔ)言模型還識(shí)別了一個(gè)新型病毒衣殼蛋白這在全球海洋中很普遍。我們制作了第一張關(guān)于其基因如何排列的圖片,表明它可以包含不同的基因集,我們認(rèn)為這些基因表明了這一點(diǎn)病毒在其環(huán)境中提供不同的功能。
這些初步發(fā)現(xiàn)僅代表了我們方法提供的數(shù)千個(gè)注釋中的兩個(gè)。
分析未知
大多數(shù)數(shù)以百計(jì)數(shù)以千計(jì)新發(fā)現(xiàn)病毒仍然存在未分類.許多病毒基因序列與功能未知或以前從未見過(guò)的蛋白質(zhì)家族相匹配。我們的研究表明,類似的蛋白質(zhì)語(yǔ)言模型可以幫助研究我們星球上許多未表征的病毒的威脅和前景。
雖然我們的研究集中在全球海洋中的病毒上,但改進(jìn)病毒蛋白的注釋對(duì)于更好地了解病毒在人體健康和疾病中的作用至關(guān)重要。
我們和其他研究人員假設(shè)病毒在人類腸道微生物組中的活性可能會(huì)被更改當(dāng)你生病時(shí)。這意味著病毒可能有助于識(shí)別微生物群落中的壓力。
然而,我們的方法也有局限性,因?yàn)樗枰哔|(zhì)量的注釋。研究人員正在開發(fā)更新的蛋白質(zhì)語(yǔ)言模型,將其他“任務(wù)”作為訓(xùn)練的一部分,特別是預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)以檢測(cè)相似的蛋白質(zhì),以使它們更強(qiáng)大。
使所有 AI 工具都可通過(guò)以下方式使用FAIR數(shù)據(jù)原則- 可查找、可訪問(wèn)、可互操作和可重復(fù)使用的數(shù)據(jù) - 可以幫助廣大研究人員意識(shí)到這些注釋蛋白質(zhì)序列的新方法的潛力,從而帶來(lái)有益于人類健康的發(fā)現(xiàn)。
利布莎·凱利,系統(tǒng)與計(jì)算生物學(xué)、微生物學(xué)和免疫學(xué)副教授,阿爾伯特愛因斯坦醫(yī)學(xué)院
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊
體育時(shí)空
體育 - 省級(jí)期刊
技術(shù)與創(chuàng)新管理
合作期刊 - 省級(jí)期刊
中國(guó)文藝家
中國(guó)文學(xué) - 國(guó)家級(jí)期刊
畜牧業(yè)環(huán)境
合作期刊 - 國(guó)家級(jí)期刊
高中數(shù)理化
中等教育 - 國(guó)家級(jí)期刊
經(jīng)濟(jì)技術(shù)協(xié)作信息
合作期刊 - 省級(jí)期刊
交通世界
交通運(yùn)輸經(jīng)濟(jì) - 國(guó)家級(jí)期刊
河南農(nóng)業(yè)
農(nóng)業(yè)綜合 - 省級(jí)期刊
文存閱刊
合作期刊 - 省級(jí)期刊
報(bào)刊薈萃
合作期刊 - 省級(jí)期刊