(2021-03-16)月前近千名專家預測AGI一定會來臨,因為人的智慧是固定的,只有藉助機器才能提升...

用電腦辨認物件與影像,能像我們人一樣精準嗎?(圖片來源:Pixabay)

(2021-03-16)用電腦搜尋已經成為我們生活的一部份,輸入幾個字就能出現很多圖畫讓我們瀏覽選擇,輸入「騎馬」,就會出現各種姿勢騎馬的圖片,輸入「騎驢看唱本」,則會出現各樣古裝繪畫,有的還會把歇後語「走著瞧」寫出來。

如果反過來,把一張騎馬的照片掃描給電腦,假設電腦有識別照片物件的能力,電腦也許會用文字回答是「騎馬」。但假如把一幅沒有文字說明的「騎驢看唱本」繪畫輸入電腦,不妨想想看,電腦會怎麼回答?

 

這就進入了AGI(Artificial General Intellience)通用人工智慧的領域,也就是普通人的言行舉止,既不是圍棋高手,也不是頂尖科學家。對人類來說,這也許僅算常識,但對電腦正好相反,下棋、自動開車反較容易,人類的常識才是高難度的智慧。

研發AGI的OpenAI,近年發表的GTP-3最引人注目,出一道題目就會自動寫出一篇文章。OpenAI日前又推出「對比式語言影像訓練」(Contrastive Language–Image Pre-training,CLIP)的軟體,可以閱讀文字並將影像歸類。

CLIP的研發人員在自行測試的時候,發現閱讀文字與解譯影像的能力既是強項也是弱點,把一個蘋果給CLIP看,答案是蘋果,在蘋果上貼一張紙條寫著iPod,答案卻是iPod,不是蘋果。給CLIP看一隻貴賓狗的照片,答案是貴賓狗,把照片上畫幾個簡單的小$$$,答案卻成了儲蓄銅板的小豬豬(Piggy Bank)。

研發人員說這像是駭客的「文字攻擊」,把結構複雜的AI神經網路,僅用紙跟筆就攻破了,讓CLIP看不見字條後面的蘋果,僅看見照片上細小的$,卻看不見照片裡一隻大狗。

研發人員自然不能一笑置之,除了認為對文字解讀能力過強,還認為對影像的抽象描述過於含蓄而複雜,而簡化到概括。如同許多深層網路,模型的最高層受制於高層的抽象描述,CLIP運用的多重關連神經元(Multimodal Neuron),運作於文字與標示之間,有如劍的兩面刃。且不管這些AI的解釋,所得到的就是前面的結果,研發人員覺得可笑之餘,也發現訓練資料的問題。

CLIP的模型(Model、AI用語、用資料訓練過的演算法)是經過大批影像與文字的關連訓練而成,但關連的原始製作難免有錯誤與偏差,有些關連可能對個人或族群有貶抑性的傷害。

像「中東」這個神經元(電腦程式)與恐怖主義關連,「移民」與拉丁美洲關連,也發現一個神經元會同時觸動深色皮膚與大猩猩兩個程式。這些在CLIP列為不能接受的偏差,在大型的影像應用系統成為一大挑戰。

OpenAI為此發表論文,告訴研發同儕潛在的問題,系統中的偏頗關連一時難以消除,顯性或隱性的效應會在運轉中呈現,但這些偏差很難預知,使得驗證與更正益加困難。CLIP的發表供研究使用,也同時提供工具,希望幫助研發同儕預先找出這些關連,避免問題發生。

OpenAI承認自己也在瞭解CLIP的運作行為,現在僅在表皮還未深入,邀請同儕一起參加研究,來增進對CLIP及類似模型的瞭解。

AGI之所以有通用性,是因為沒有領域的限制,CLIP辨識影像並歸類,並不指定影像的類別,可以是水果、動物、儲蓄,甚至新的影像概念。為了更接近通用性,研發人員從網路挑選4億筆「影像-文字」的關連組合,如前所述,訓練成CLIP模型。

訓練之後,可以用自然語言來連接已知的影像,以及用來描述新的影像,這樣就能零次(Zero-shot)的將模型轉換成下游的工作,經30種電腦視覺資料集的驗證效果良好,這就是CLIP的精華所在。

AGI是AI的理想境界,也就是電腦有了人類的智慧,有了自主的意識與繼續學習能力,AI也就到達了頂點(Singularity),人類進入另一個進化時期。

月前近千名專家預測AGI一定會來臨,因為人的智慧是固定的,只有藉助機器才能提升,而AGI需要的運算與記憶能量,都在繼續增加中,AGI需要的演算法,人類也不斷的優質提供,讓機器的運算與記憶能量充分發揮。專家預估AGI到達的時間,是2060年。

反駁AGI的學者們有三個主要理由:
一、智慧是多面導向的,許多動物的智慧對人類也有益。
二、光靠智慧不能解決所有問題,許多問題需要累積的實驗去解決。
三、電腦不可能模擬真的人腦,所以AGI不可能成立。

且不論AGI能否來臨,我們真想看到一個影像識別的AI,對「騎驢看唱本」這幅繪畫怎麼回應,當然最希望看到的回應是「走著瞧」三個字。


本文取材自2021年3月14日「那福忠西海岸數位隨筆(195)」:通用人工智慧會出現嗎?
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 給作者,分享您對本文的看法。