NonLinguist

Nope, I don't have a PhD.

關於一般大眾對 LLM (大型語言模型, e.g., ChatGPT) 和 Chomsky 的回應的一些看法

Posted on 2023-02-18

原文是回覆這篇 Facebook Post 的，不過 FB 搜尋很困難，就再把我的回覆留在這裡希望能被 Google 找到。XD

「大型語言模型，是不是先設定基本學習規則，也就是普遍語法？」
如果這裡的「普遍語法」指的是 Chomsky 的 Universal Grammar 的話，那麼目前除了我們在 Droidtown Linguistic Tech. Co, Ltd. (卓騰語言科技) 做的東西以外，沒有任何一個語言模型內部具有 Universal Grammar。世界上另外有兩間公司 (Bitext 和 AI21 Labs ) 也說他們有使用現代語言學規則，不過他們也沒有做模型，而是直接用 Universal Grammar 做產品。
如語言選物點出的，Chomsky 的 Universal Grammar (UG) 是一種 Descriptive Grammar (DG) 而非 Prescriptive Grammar (PG)。兩者的差別是，DG 指的是「全人類語言通用」的東西 (e.g., 動詞都會和時態有關；名詞都會和數量有關)，而 PG 通常只能適用某一種語言 (e.g., 英文第三人稱單數的主詞，其主要動詞要加 -s 或依詞彙結尾變化為 -es。以上這些規則只限英文適用)。DG 才是現代語言學研究的重點，PG 是中學英文課在學的東西。只是大家只看到它都有一個 “Grammar” 就以為差不多。但我們在講「語言學規則(linguistics rules)」的時候指的是 DG，而不是「語言規則 (language rules)」的 PG。當大家說 “rule-based 的失敗” 時，指的也是後者的 language rules 的失敗。畢竟，1960 年的時候，linguistics rules 還不存在啊！
前面陳仕勳提到「三波 AI 的發展」裡，「第一波 1950 ~ 1960 年符號主義的失敗」的時候，指的是 PG 的失敗。因為 Chomsky 在 1957 年才出版了第一本專書。他根本趕不及教出足夠的學生參與這一波 AI 發展。然而，其後的 AI 教科書都直接把 Chomsky 和現代語言學歸類為「第一波 AI 失敗」這一期的東西。事實上，Chomsky 的 UG 和現代語言學是從 1960 年代一路發展到 2010 年左右才完備的語言學理論。它和第一波 AI 的「符號主義」沒有太直接的關係。唯一的關係是，DG 「可以」用符號邏輯呈現與計算。但似乎很多人只看到「哦，它也是符號那個什麼的」，就把它視為一樣的東西了。這是一大誤解。
另一個陳仕勳提到的部份裡，語言學裡的「句法-語意」研究，的確是「「語素」 -> 「語法」 -> 「語意」」這樣逐層解算。有點像數學，你要先能算 X + Y ，然後才能算 (X + Y) x Z。由小到大，逐層解算。能做逐層解算，就表示你「真的懂數學計算的原理」。但 AI 語言模型不是這樣，它不是用逐層解算的。語言模型是用「它和我受訓的時候看過的東西，哪一個最像。」
所以，人類會知道 1 + 1 = 2 ，掌握了「加法律」以後，不管加幾個 1，就算不曾看過這麼長的式子，人類都會算。但語言模型沒有掌握「加法律」，它只是以「我曾經看過(受訓練時) 看過的東西裡，哪一個和這個題目最像」來面對。之前有個語言模型會產出以下的結果：
1 + 1 = 2
1 + 1 + 1 = 3
1 + 1 + 1 + 1 + 1 + 1 + 1 = 12
它會把「七個 1 相加」後面填上「 12」當解答，是因為它其實不懂什麼是加法，它只是「沒看過七個 1 相加，但是看過 11 的後面跟著 12，而且看過很多次。那我就填 12 好了。」於是做出上面的表現。這就是林鉦育提到的它「邏輯和計算能力不好」不好的主要原因。
Emmy Hu 提到的「ChatGPT的P就是pre-trained」這個「預訓練」的「預」是相對於之後的「fine-tune (微調)」。假設我們想要有一個「自動畫出海岸風景」的影像生成模型，而我給它的 1 千萬張照片，全部是愛琴海的白屋藍水的照片。那麼它就只會生出「藍色」的海水。但我把這個模型拿來畫黃河出海口的海水時，就不適合了，因為那裡的水是黃褐色的。所以這時候我要另外準備 N 張「黃褐色」的海水照片做 “fine-tune”，讓模型學會「海水不是只有藍的哦，也可能是黃色的」。
以上的步驟，完全不涉及「海水對不同波長的光有不同的散射與吸收效果，同時海水中的浮動的沉積物或生物也會影響其顏色」的理論知識。換言之，不論是「預訓練」(不論有沒有加標記人員) 或是「微調」，這項工程施作完全不涉及背景知識。
回到語言模型的問題上。不論是先給予「大量各種語料的 pre-train」還是「拿到保險公司使用前，特別把 30 年來的保單資料予以 fine-tune」的步驟，都不涉及任何語言學規則 (linguistics rules) 哦！
Chomsky 說 LLM 只是「高科技複印技術」的意思，是指我們現在有一個很高科技的工程方法，可以快速地產出通順的句子，就像畫出白色的浪花旁邊是藍色的海水。看起來就像真的一樣！這個工程技術可以很有用，就像 Chomsky 舉他自己的助聽器為例。助聽器可以精準地把「人聲」的放大，但其原因是經過檢測，知道我的聽力的哪一個頻率聽不到，而人聲會落在這個頻率上，所以把它放大，那我就聽得到了。這個技術很有幫助！但它放大的是「物理上的某個頻率」，而不是「放大語言的成份」。
LLM (大型語言模型) 其實就是一種「複印技術」，對於讓我們對「語言為什麼是這個樣子？怎麼這麼剛好全世界的語言的動詞都和時間有關，名詞都和數量有關？這反映了什麼認知能力？」這些問題一點幫助也沒有。

語言 -- 人機介面的最後聖盃

Posted on 2022-09-06

提出機器人三定律的科幻文學大師艾西莫夫，在他的作品中描述了一個各個研究領域都登峰造極以後，每個領域的專家都失去以宏觀角度思考問題，最後因為沒有跨領域的人才，所以人類文明分崩離析的世界。

在那個世界裡，搞不清楚能源系統是怎麼運作的人類其至有個把發電廠當成神在崇拜的宗教…

大學時，曾經讀過一本講程式設計的書，內容有一段的大意是「…因為讓電腦和人類之間缺乏可以直接溝通的工具，所以人類要學習程式語言才能和電腦溝通…」

當時正在研讀語言學相關學分的我就想…與其教人類程式語言，那為什麼不反過來，教電腦人類的語言呢？

現代語言學裡有好幾個學派，其中有一個影響力擴及好幾個語言學以外的領域的學派，就是 MIT 語言學教授 Chomsky 的 Formalism 學派了。

我在這裡使用 Formalism 而非它的中文譯名「形式主義」是因為形式主義這個中文詞彙在中文的語境裡，有一些負面的意思在。大概是指「只是擺個樣子，而沒有真的觸及問題的核心進而決解問題」的意思。這個「形式主義」的中文意義和 Formalism 在語言學裡的意義是有一些落差的，所以我在這裡採用英文的原詞，而非中文的譯名。

Formalism 透過大量整理各個語言的句法和語意，並在最後納入了音韻變化也是結構的線索之後，集大成地用單一一個句法樹的原則，解釋了已知的六千多種人類語言句子裡的詞彙順序問題。

相較於 1950 年代，AI 剛剛萌芽時，動不動就要設計上萬種句法樹只為了描述一種語言的冏困，在 2008 年前後，在 Chomsky 的語言鐵三角 (句法-語意-音韻) 架構底定以後，Formalism 的句法結構收歸整合成一種，便有魔戒 “one ring rule them all” 的氣勢。因為不論是哪一種語言，都可以通用同一種句法樹，只要中心語參數調整過就行了。因此以 “Rule-based” 方法來進行各種 NLP 任務，便從 1950 年的「過於複雜而不可行」，在 2008 年左右，成為可行的方法。

在這樣的成就光環之下，絕大部份的語言學家就像艾西莫夫筆下的學者一樣，從訓練養成的過程裡，就不曾接觸過「有更寬廣的人類社會實際問題需要解決」的想法。

再拖了幾年以後，在 2010 年前後，大數據 (當時還叫「海量數據」) 興起，緊接著的機器學習和深度學習的浪潮，更是完全把 1950 ~ 2008 年這近六十年來語言學家們的努力沖得乾乾淨淨。只剩下在許多「機器學習/深度學習」的簡報裡佔了一句話「1950 年時基於規則的 AI 失敗」就輕輕帶過了。

在卓騰語言科技裡，我們不這麼認為。

我們撿起這六十年磨一劍的 Formalism，開始解各種 NLP 任務。而且我們發現它非常好用，尤其是對於「中文 NLP」的各種瓶頸，對於基於 Formalism 開發出來的 Articut NLP 系統而言，幾乎都是迎刃而解！

不論是最基礎的中文斷詞任務、中文文本分類任務，或是高階一點的中文語意理解任務，甚至是更高階的中文數學應用問題求解的任務和語言學習輔助科技的任務…等等，都是如此。

基於 Articut NLP 系統打造的 Loki 語意詮釋引擎，更讓我們第一次有了可以「讓電腦逐句推論中文意義」的人機互動能力。

設計 Loki 的原理，是依著 “Introducing Discourse Analysis (David Nunan)” 這本書裡分的三層

Activity (從事的活動)
Function (對話功能)
Utterance (實際使用的句子)

用來對應在聊天機器人或是 NLU 上面就是…

場景 (Scenario)
意圖 (Intent)
句子 (Sentence)

藉由 Loki 建立「某個意圖」中會「使用到的句子」，Loki 會擷取出關鍵詞彙以供程式邏輯做為計算使用。

最後將寫好的程式佈署到某個應用場景中。一個透過「語言」做為人機互動介面的人工智慧 UI 便佈置好了。有了可以透過語言進行人機互動的人工智慧，才是真正的人工智慧。否則，從 2012 年 BigData 一詞興起到現在，全球投入了幾千兆美金的資金進入人工智慧領域的各個題目裡，我們真的得到了什麼呢？

自動駕駛會開車了嗎？
智能家居不會開錯門了嗎？
語音辨識是不是仍然是好一點的會撥放音樂，差一點的就只是個輸入法呢？

自然語言處理…或是更精確地說「自然語言理解」這個題目，仍然是人機介面的最後聖盃。而我們有相當的自信，融合了機器學習和結構態樣計算的 Loki 就是找到這座聖盃的關鍵。

認知 -- 叫「中國」或「大陸」有差嗎？

Posted on 2022-09-06 Edited on 2022-09-25

「語言怎麼影響認知」

這個問題我想了一天要怎麼講才好。又不想拿 Sapir Whorf 的東西或是異星入境的東西出來講。那…就拿我們自己切身 (而模糊) 的歷史出來做例子好了。

「大陸」其詞指的是 mainland (主要的、最大的陸地)，而不是 continent (如美洲大陸、非洲大陸)。既然有「主要的、最大的」，那麼自然就在認知上隱含著有其它「次要的，較小的」存在。

在語言上稱其為「大陸」就像在認知裡自承了「我是和他相比之下，次要的、較小的 (甚至是 “從屬的”)」存在。

因此，雖然「東亞大陸 (continent)」就在日本旁邊，日本人的認知裡將自己視為獨立的國家的情況下，不會以「大陸 (mainland)」來指稱中國。否則就像是在心理上自承「我是次要的，較小的，從屬的」存在。

日治時代 (我用「治」而不用「據」是因為那是有條約議定後的結果) 末期對台灣採用「內地延長主義」。這個詞彙裡的「內地」也就表示著「有一個核心的存在，而台灣不是那個核心」。換言之，台灣不是當時日本帝國思考資源分配和發展建設時的重點。在這個認知下，台灣是可以被犧牲的。到後來，開始推動「內地延長」，就像是前總統馬英九對原住民說的那句「我把你當人看」。

為什麼要把「本來就是人」的人，「當」人看呢？這也表示著在認知裡，他並不認為你「本來就是人」，是他把你「當人看」，你才是人的。

舉了這兩個語言詞彙的使用揭露認知的例子，再回到「大陸」的問題上。

當國民政府來台灣的時候 (這個是「治」還是「據」…就留給讀者自己去翻查是否有什麼條約了)，KMT 政府的認知裡，這只是暫時的權宜之舉。國家的發展重心，仍然是在海峽左岸的那一大片土地，現在這塊只是「(和大塊的相比) 次要的，(和大塊的相比) 較小的，甚至是從屬於那一大片土地的」。所以以「大陸 (mainland)」一詞稱之。

我們做為一個自由國家，的確是沒辦法 “規範” 每個人應該有 “一致” 的認知。那是專制國家在做的事情。畢竟每個人對自我的認知的體察敏感度也是不同的，有的人會發現自己的認知被操弄；有的人不會，還反而會對吹哨者興起一股情緒上的反應。這些不同的表現都是正常的，自由社會尊重並承認多元的存在。

但是，如果你很喜歡這個自由的生活方式的話，保護自由最好的方式是民主制度。而保護民主制度呢，需要時時刻刻警醒著是「誰」試圖操弄你的認知，讓你用著民主制度，搞丟自己的自由。