終於有人用 AIGC做點有用的了! 生物學家用它設計全新的、從來不存在的蛋白質

終於有人用 AIGC做點有用的了! 生物學家用它設計全新的、從來不存在的蛋白質

ADVERTISEMENT

AIGC 的能力驚豔了所有人,背後的技術——擴散模型,也啟發了生物學家。而當生物學家將這項技術「為己所用」,就帶來了技術升級:更準確地設計全新的、從來不存在的蛋白質。結果比目前已經存在的模型都更加優秀。無論是 Open AI 的 DALL-E,還是開源的 Stable Diffusion,能產生以假亂真繪畫,背後的關鍵技術都離不開擴散模型。 

2022 年,人們獲得了一項前所未有的繪畫超級工具。普通人只要用語言給出描述、或者幾個關鍵字,就可以用 AI 程式生成一張媲美專業畫師的作品。擁有了這樣工具的人,即使沒有學過繪畫、不會操作任何設計軟體,也像是擁有了神筆的馬良。而一些專業的視覺設計從業人員,也開始嘗試用新的工具輔助工作。這一波 AI 繪畫的火熱,再一次證明了 AI 圖像技術的發展。不是幾年前的辨識是人還是車、是貓還是狗,而是直接產生。

AI 繪製的圖像。圖片來源:網路

而技術帶來的想像遠不止理解語言、生成圖像,也能給科學家提供強大的工具。也許你還記得去年夏天的 AI 洗板,DeepMind 推出的 AlphaFold2 解決了困擾生物學家五十多年的難題——蛋白質預測。隨著這一話題的熱度攀升,人們逐漸意識到了 AI 的另一種強大力量。曾經需要科學家在實驗室裡花費數月甚至數年,才能夠測得某個蛋白質的結構,如今輸入一串氨基酸序列,就可以得到預測的結構。 

DeepMind 的創始人兼 CEO Demis Hassabis 說,「我認為,未來十年我們會看到更多這樣的事情ーー人工智慧真正有助於真正加速一些科學突破ーー我們希望成為更多科學突破的一部分。我們認為這只是個開始。」 

科技突破往往發生在交叉領域,蛋白質預測突破背後,一個關鍵便是源自自然語言處理的技術 Transformer,應用在了生物領域。這樣的模式正繼續發生:源自AI 繪畫領域的擴散模型,正在加速蛋白質設計。 

蛋白質設計可以做的事情太多了。這項能力讓人類得以生產分子等級的「機器」,它們可以是新的藥物、疫苗、新的奈米材料、為特殊反應定制的酶……甚至可以作為污染處理方案,分解環境中的有毒分子。 

從預測到設計 

蛋白質執行著生命的各項功能,也是生命系統中最重要的「分子元件」。比如,當新冠病毒感染人體時,在微觀層面,首先是兩種蛋白的結合。病毒表面的刺突蛋白(S 蛋白)結合了人體內細胞上的另一種蛋白——ACE2。

新冠病毒電鏡掃描 3D 圖,粉色的部分為刺突蛋白。圖片來源:Nanographics

 

決定一個蛋白質擁有怎樣功能的,是它的結構。「氨基酸序列——結構——功能」三者間的對應關係,是理解一個蛋白質的密碼。最難的是「氨基酸序列——結構」之間的關係,因為一條氨基酸長鏈條折疊成什麼樣,有無數種可能性。究竟如何折疊,受到氨基酸之間化學反應、蛋白質所處環境等各種因素的影響。科學家目前掌握了蛋白質折疊的基本原理:蛋白質會折疊到能量最低的狀態,然後保持結構穩定。AlphaFold2 則用更優的模型+暴力計算,一舉超越了之前所有的計算方法。 

蛋白質設計,是結構預測的逆向問題。兩者像是「序列——結構」這道題的正反求解。已知序列、求解3D結構,是結構預測;設定某個3D結構、求解序列,便是蛋白質設計。 

人類想設計蛋白質,歸根到底是想讓這種強大的生物元件來為自己服務。我們可以先設想一個需要的功能,然後看什麼樣的結構來實現功能。最初的要求可能是:瞄準某個靶點的藥物分子、在細胞膜表面專門運送某種物質的蛋白……科學家最想擁有的「魔法」是,去設計一個自然界原來並不存在的蛋白質。 

蛋白質設計領域的領軍人物大衛‧貝克(David Baker)將這個正在發生的進程稱為「蛋白質設計革命」,「這場革命與人類歷史上發生過的其它科技革命類似,我們將可以用新的方式來操控世界……透過『蛋白質設計革命』,我們將學會用前所未有的方式,來操控生物分子。」他目前是華盛頓大學的計算生物科學家,在 AlphaFold2 模型推出之前,他帶領團隊推出的預測蛋白質方式是學界的主流模型。 

David Baker。圖片來源:華盛頓大學蛋白質設計研究所

如今,他的實驗室也走在蛋白質設計的最前線。12 月初實驗室發表了最新的模型 RF diffusion(射頻擴散),這個模型將 AI 繪畫領域的擴散模型創新地融入蛋白質設計中。 

另一個團隊也發表了類似的成果,波士頓的蛋白質設計公司 Generate BioBiomedicines,發表了一個蛋白質設計程式 Chroma。這兩項最新的研究成果,都可以對性能、結構先做一些設定,再依據這些設定來產生全新的蛋白質。 

來自貝克團隊的一位成員說,「我們生成的蛋白質與現有的蛋白質完全沒有相似性。」Generate Biomedicines 的 CTO 則形容,「我們可以在幾分鐘內發現花費了數百萬年的進化是什麼」。除了根據條件來重新設計,兩個團隊的最新模型還可以產生蛋白質片段,將片段與已經存在的結構匹配。 

這次研究中出現了讓大衛‧貝克非常驚喜的結果——產生了一種附著在甲狀腺旁激素上的蛋白質。「它憑空想出了這種蛋白質設計」。這種蛋白質的功能是控制血液中的鈣水準。在設計時,科學家只是告訴模型荷爾蒙的資訊,然後讓它產生一種與之結合的蛋白質。接下來,在實驗室測試這種蛋白的時候,他們發現,新設計出的蛋白和激素緊密連接,甚至超出了現有的藥物。 

David Baker 實驗室設計的環狀蛋白質。圖片來源:華盛頓大學蛋白質設計研究所

 

設計蛋白質的「魔法」

如果說提出對圖畫的描述,讓 AI 幫你作畫已經超出想像;提出一個對蛋白質的要求,讓 AI 幫你設計出這樣一個分子,更像是一種超級能力。大自然花了上億年形成蛋白質進化規律,人類雖然不能完全翻譯這些規律,卻可以發明強大的工具,並對它發出指令:「生產一個可以與 X 結合的分子」。 

擴散模型已經在 AI 繪畫顯示了威力。最基礎的直覺原理來源於物理學。在環境中,氣體分子會高濃度區域擴散到低濃度區域,這個過程,也類似雜訊逐步擴散、最終導致資訊丟失。 

將這個原理運用在圖像生成,便是將「雜訊逐步擴散、最終資訊丟失」的過程逆向運作。先產生一張充滿大量雜訊的圖片,再基於 AI 能力,一邊猜測哪些對於最終的圖像而言是「噪點」,將其去除,那麼剩下的便是所需的「資訊」。透過反覆運算,在雜訊中反復提取出「資訊」,最終產生被指定的圖片。 

為什麼擴散模型用於蛋白質設計,會有更強大的結果呢?電腦生物學領域的學者表示,目前會有一些依據模型特點的推測,但還很難說清楚。不過目前的研究結果,已經證明了擴散模型的潛力。Baker 實驗室表示:射頻擴散方法在許多問題上優於現有的蛋白質設計方法。 

比如用來設計Pmol等級的結合劑(1 mol=10^12 Pmol)。Barker 實驗室的科學家 Joseph Watson 難掩興奮地在 Twitter 上分享結果:我們設計了五種醫學相關分子的黏合劑。這些結合蛋白通過了最嚴格的電腦測試,現在正在實驗室測試它們。將來,可能只需要幾秒鐘就可以為任何目標設計出高親和力的結合蛋白。  

五種黏合劑。圖片來源:Joseph Watson

而在 Generate Biomedicines 的最新成果中,具有對稱結構的蛋白質分子表現優異。 

Baker 曾經說,「有時候我自己也會覺得這像是魔法。我喜歡做這些魔法般的事情。」只不過為了取得這些「魔法」,他們經歷的失敗、複雜的研究過程,很少為外界所知。 

還有許多結果等待驗證。設計出的蛋白是不是能夠如所設想的具有特定功能?這需要合成出蛋白質,進行實驗驗證。目前 Baker 實驗室正在鑒定一種能與新冠病毒相關的蛋白。這種蛋白具有對稱的結構,能夠與病毒上三個對稱的刺突蛋白結合。 

今年 6 月份,一款新冠病毒疫苗在韓國獲批上市。這是科學家運用之前的蛋白設計能力研發出的疫苗。這款名為 GPB510 的疫苗,是一個人工設計的蛋白質奈米顆粒,上面佈滿了新冠病毒的刺突蛋白片段。(下圖中的紅色部分),這些片段能夠激發人體產生抗體。 

不斷發展的工具,會給人類帶來更多不同功能的蛋白質;如今,正來到了不斷突破的加速期。 

終於有人用 AIGC做點有用的了! 生物學家用它設計全新的、從來不存在的蛋白質

 

geekpark
作者

極客公園(www.geekpark.net)成立於2010年,是中國創新者的大本營。透過對前沿科技的觀察報告,在內容媒體、會展公關、創業服務三大業務協同發展下連結資源,讓優秀的科技新創更快速的成長。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則