(2021-08-03)多年的努力,科學家們用多種實驗方法,僅找出17%的人體蛋白質,且每種都耗以月計的時間,直到近年AI的運用,把時間縮短到幾分鐘...

(2021-08-03)說到蛋白,小時候總以為是煮熟了雞蛋的蛋清,又白又光亮,後來才知道蛋白是對身體有益的食物,魚、肉、豆類都含有豐富的蛋白。但蛋白與蛋白質,字面相似卻不完全相同,因為蛋白質是生命的根基,我們的身體都要靠各種蛋白質的作用來維繫,我們吃的蛋白食物,含有蛋白質、但也含有其他成分。

那蛋白質是什麼呢?是由生命最底層的20種氨基酸(Amino Acid)所組成,最近又發現2種氨基酸,所以地球上所有動植物的蛋白質都是由這22種氨基酸所組成。

 

組成人體蛋白質的氨基酸僅有20種,那蛋白質的結構應該很簡單?正好相反。因為蛋白質不光是把幾個氨基酸連起來,還會改變形狀,學術上稱為摺疊(Folding),摺疊之後形成一特定的立體結構,決定它的作用。

蛋白質的摺紙共有四級,氨基酸連在一起是第一級,然後變化成螺旋鍊、或是平面條狀,是為第二級,再經過摺疊立體成形,是第三級,許多成形的立體單元結合在一起,是第四級,成為固定有特定作用的蛋白質。

氨基酸連接的順序由基因DNA編碼決定,也因此決定了蛋白質摺疊後的形狀,所以一環扣一環,一旦摺疊出錯,原有作用不再發揮,身體就出了狀況。蛋白質是生命的底層,不同的蛋白質發揮不同作用,例如抗體就是蛋白質的一種,用來抵抗外來的病毒,酵素是另一種,促成無數的化學反應。而各細胞與組織間的信息傳遞,支持身體的結構,蛋白質本身的傳送與儲存,都是各種蛋白質的作用。

蛋白質既然這麼重要,科學家自然想進一步知道它的結構,特別是怎麼摺疊成最終的形狀,但因為數量與複雜的程度,科學家對蛋白質形成的研究受到了限制。

人體蛋白質的數量,以從一組基因有一種蛋白質估算,至少有2萬種,有人估算的更多,但更複雜的是從氨基酸的連接到摺疊成形,速度非常快,以千分之一秒計,而且可能的摺疊配置方式有人估計為10的300次方(10後面加300個0)那麼多種。

所以即使知道氨基酸的排序,也難以預測蛋白質的摺疊,以及摺疊後的最終結構。同樣的氨基酸排序,摺疊成同樣的立體蛋白質結構,獲得氨基酸之間最大的互動效果,科學家想知道這些,因為可以更瞭解細胞的功能,以及失誤的摺疊如何發生疾病,更可以針對特定蛋白質的反應設計標把藥物。多年的努力,科學家們用多種實驗方法,僅找出17%的人體蛋白質,而且每種都耗以月計的時間,直到近年AI的運用,把時間縮短到幾分鐘。

Alphabet所屬的DeepMind,大家也許還記得他們的AlphaGO圍棋電腦程式,擊敗了人類圍棋高手,這個AI軟體現在有了新版本稱為AlphaFold,用氨基酸的排序預測蛋白質的摺疊結構,幾年下來的研究,可以預測人體全部約2萬種蛋白質的結構,加上另20種常用研究的生物體如果蠅、大腸桿菌、老鼠等,一共可預測35萬種蛋白質,並預定年底要增加到1億3千萬種,相當於科學所知蛋白質的半數。

同樣是深層學習的AI,摺疊與下棋未必相同,但以現有經實驗證實的蛋白質資料庫為藍本,作為訓練摺疊的關連,應是一大關鍵。DeepMind做了兩件事,一是把電腦程式碼公開,一是把所預測到的人體與部分生物體的結果存入資料庫,供科學研究使用,同時也繼續更新,繼續驗證預測的結果。很多科學家都認同這是繼基因排序之後,對科學最大的貢獻。

預測的準確度有多少?DeepMind研究人員提供了一個衡量的規範,告訴大家一個範圍。對人類的蛋白質組(Proteome)以個別氨基酸對應位置預測的蛋白質,有58%的可信度,而有36%可以準確到原子層次,應可用來製藥或是酵素。即使準確度不高的預測,在學術上仍有價值,生物學家認為有些蛋白質沒有固定的形狀,僅是蠕動的液體,而低準確度的預測範圍,可能是這些無狀態的蛋白質。

快速預測蛋白質結構的應用,有無限的想像空間,發展新藥、醫治新舊疑難雜症,自然是首要,而設計不受氣候變化干擾的農作物,也正是急需。英國樸茨茅斯大學結構生物學教授John McGeehan研究分解塑膠的酵素,說所需要的蛋白質不能用實驗方法確定,AlphaFold將替我們省下好幾年的時間。

DeepMind的AlphaFold發表在7月22日的《自然(Nature)》期刊。
Highly accurate protein structure prediction for the human proteome


本文取材自2021年8月1日「那福忠西海岸數位隨筆(215)」:AI掀開了蛋白質的秘密
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 給作者,分享您對本文的看法。