關於一般大眾對 LLM (大型語言模型, e.g., ChatGPT) 和 Chomsky 的回應的一些看法

原文是回覆這篇 Facebook Post 的,不過 FB 搜尋很困難,就再把我的回覆留在這裡希望能被 Google 找到。XD

  1. 大型語言模型,是不是先設定基本學習規則,也就是普遍語法?
    如果這裡的「普遍語法」指的是 Chomsky 的 Universal Grammar 的話,那麼目前除了我們在 Droidtown Linguistic Tech. Co, Ltd. (卓騰語言科技) 做的東西以外,沒有任何一個語言模型內部具有 Universal Grammar。世界上另外有兩間公司 (BitextAI21 Labs ) 也說他們有使用現代語言學規則,不過他們也沒有做模型,而是直接用 Universal Grammar 做產品。

  2. 語言選物 點出的,Chomsky 的 Universal Grammar (UG) 是一種 Descriptive Grammar (DG) 而非 Prescriptive Grammar (PG)。兩者的差別是,DG 指的是「全人類語言通用」的東西 (e.g., 動詞都會和時態有關;名詞都會和數量有關),而 PG 通常只能適用某一種語言 (e.g., 英文第三人稱單數的主詞,其主要動詞要加 -s 或依詞彙結尾變化為 -es。以上這些規則只限英文適用)。DG 才是現代語言學研究的重點,PG 是中學英文課在學的東西。只是大家只看到它都有一個 “Grammar” 就以為差不多。但我們在講「語言學規則(linguistics rules)」的時候指的是 DG,而不是「語言規則 (language rules)」的 PG。當大家說 “rule-based 的失敗” 時,指的也是後者的 language rules 的失敗。畢竟,1960 年的時候,linguistics rules 還不存在啊!

  3. 前面 陳仕勳 提到「三波 AI 的發展」裡,「第一波 1950 ~ 1960 年符號主義的失敗」的時候,指的是 PG 的失敗。因為 Chomsky 在 1957 年才出版了第一本專書。他根本趕不及教出足夠的學生參與這一波 AI 發展。然而,其後的 AI 教科書都直接把 Chomsky 和現代語言學歸類為「第一波 AI 失敗」這一期的東西。事實上,Chomsky 的 UG 和現代語言學是從 1960 年代一路發展到 2010 年左右才完備的語言學理論。它和第一波 AI 的「符號主義」沒有太直接的關係。唯一的關係是,DG 「可以」用符號邏輯呈現與計算。但似乎很多人只看到「哦,它也是符號那個什麼的」,就把它視為一樣的東西了。這是一大誤解。

  4. 另一個 陳仕勳 提到的部份裡,語言學裡的「句法-語意」研究,的確是「「語素」 -> 「語法」 -> 「語意」」這樣逐層解算。有點像數學,你要先能算 X + Y ,然後才能算 (X + Y) x Z。由小到大,逐層解算。能做逐層解算,就表示你「真的懂數學計算的原理」。但 AI 語言模型不是這樣,它不是用逐層解算的。語言模型是用「它和我受訓的時候看過的東西,哪一個最像。」
    所以,人類會知道 1 + 1 = 2 ,掌握了「加法律」以後,不管加幾個 1,就算不曾 看過這麼長的式子,人類都會算。但語言模型沒有掌握「加法律」,它只是以「我曾經看過(受訓練時) 看過的東西裡,哪一個和這個題目最像」來面對。之前有個語言模型會產出以下的結果:
    1 + 1 = 2
    1 + 1 + 1 = 3
    1 + 1 + 1 + 1 + 1 + 1 + 1 = 12
    它會把「七個 1 相加」後面填上「 12」當解答,是因為它其實不懂什麼是加法,它只是「沒看過七個 1 相加,但是看過 11 的後面跟著 12,而且看過很多次。那我就填 12 好了。」於是做出上面的表現。這就是 林鉦育 提到的它「邏輯和計算能力不好」不好的主要原因。

  5. Emmy Hu 提到的「ChatGPT的P就是pre-trained」這個「預訓練」的「預」是相對於之後的「fine-tune (微調)」。假設我們想要有一個「自動畫出海岸風景」的影像生成模型,而我給它的 1 千萬張照片,全部是愛琴海的白屋藍水的照片。那麼它就只會生出「藍色」的海水。但我把這個模型拿來畫黃河出海口的海水時,就不適合了,因為那裡的水是黃褐色的。所以這時候我要另外準備 N 張「黃褐色」的海水照片做 “fine-tune”,讓模型學會「海水不是只有藍的哦,也可能是黃色的」。
    以上的步驟,完全不涉及「海水對不同波長的光有不同的散射與吸收效果,同時海水中的浮動的沉積物或生物也會影響其顏色」的理論知識。換言之,不論是「預訓練」(不論有沒有加標記人員) 或是「微調」,這項工程施作完全不涉及背景知識。
    回到語言模型的問題上。不論是先給予「大量各種語料的 pre-train」 還是「拿到保險公司使用前,特別把 30 年來的保單資料予以 fine-tune」的步驟,都不涉及任何語言學規則 (linguistics rules) 哦!

  6. Chomsky 說 LLM 只是「高科技複印技術」的意思,是指我們現在有一個很高科技的工程方法,可以快速地產出通順的句子,就像畫出白色的浪花旁邊是藍色的海水。看起來就像真的一樣!這個工程技術可以很有用,就像 Chomsky 舉他自己的助聽器為例。助聽器可以精準地把「人聲」的放大,但其原因是經過檢測,知道我的聽力的哪一個頻率聽不到,而人聲會落在這個頻率上,所以把它放大,那我就聽得到了。這個技術很有幫助!但它放大的是「物理上的某個頻率」,而不是「放大語言的成份」。
    LLM (大型語言模型) 其實就是一種「複印技術」,對於讓我們對「語言為什麼是這個樣子?怎麼這麼剛好全世界的語言的動詞都和時間有關,名詞都和數量有關?這反映了什麼認知能力?」這些問題一點幫助也沒有。