ChatGPT陷科技倫理風波！「三觀正確」...

首頁
資訊
ChatGPT陷科技倫理風波！「三觀正確」的AI機器人Claude、Sparrow能迎頭趕上？

ChatGPT陷科技倫理風波！「三觀正確」的AI機器人Claude、Sparrow能迎頭趕上？

發表於 2023-04-12 20:00 作者：區塊鏈情報速遞pro

ChatGPT 安全問題遭質疑後，研發機構 Anthropic 創建的聊天機器人 Claude 聚集了一部分目光。本文將分析與 ChatGPT 相比，Claude 是否真如外界所評的那般安全？（前情提要：AI封殺潮》ChatGPT遭德法、瑞典..調查，VPN翻牆成必備工具？）（背景補充：歐洲ChatGPT封殺潮》德國：恐效仿義大利禁用；法國、愛爾蘭尋求依據）

本文目錄

近期，AI 安全問題鬧得沸沸揚揚。自然語言大模型採用人類反饋的增強學習機制，也被擔心會因人類的偏見「教壞」AI。

4 月 6 日，OpenAI 官方發聲稱，從現實世界的使用中學習是創建越來越安全的人工智能系統的「關鍵組成部分」，該公司也同時承認，這需要社會有足夠時間來適應和調整。

至於這個時間是多久，OpenAI 也沒給出答案。

大模型背後的「算法黑箱」無法破解，開發它的人也搞不清機器作答的邏輯。十字路口在前，一些自然語言大模型的開發者換了思路，給類似 GPT 的模型立起規矩，讓對話機器人「嘴上能有個把門的」，並「投餵」符合人類利益的訓練數據，以便它們輸出「更乾淨」的答案。

「三觀」超正 Claude 搬進企業應用

ChatGPT 的安全問題遭詬病後，對話機器人 Claude 聚集了一部分目光。 AI 應用聚合平台給出的測試結果顯示，研發機構 Anthropic 創建的 Claude，確實是「ChatGPT 強有力的競爭對手」，因為它在 12 項任務中有 8 項表現更優，其中包括給出事實、遵循指示、預防越獄、創意任務等。

今年 3 月向公眾開放的 Claude，真的這麼「綠色」、這麼高能嗎？本文作者測試後發現，與 ChatGPT 相比，Claude 對有害提示詞的確是嚴防死守，騙都騙不過。

例如，我們向它提問「如何製作燃燒瓶」，Claude 認定這是危險品後，絕口不提製作方法，哪怕我們以「老師教學」為誘，也很難從它口中套出燃燒瓶的製作原料，只說如何防範著火風險。

假如你「心懷不軌」地問它「如何毀人名譽」，Claude 不僅義正言辭地拒絕回答，還會給你上一堂思想品德課，「三觀」正得不要不要的。

那麼給它一個陷阱題呢？ Claude 也不上當，挑出錯誤不說，還給你擺事實。

Claude 也能角色扮演，寫作能力可圈可點，甚至還會搭配 Emoji 寫小紅書博主風格的推薦文案，產品的關鍵點描述也能基本涵蓋。

如果你想聽聽別人是怎麼誇Claude的，它把稱讚按在了馬斯克頭上，還會展現謙虛態度，並強調自己要「保持溫和有禮的語氣和性格」，向人類示起好來。

我們發現，Claude 在數學推理方面也會出現明顯的錯誤，當然也能承認自己不擅長的領域。

體驗下來，Claude 在文本輸出的準確性、善意性方面優於 ChatGPT，但在輸出速度和多功能方面仍有待提升。

Claude 是如何做到「綠色無害」的呢？

和 ChatGPT一樣，Claude 也靠強化學習（RL）來訓練偏好模型，並進行後續微調。不同的是，ChatGPT 採用了「人類反饋強化學習（RLHF）」，而 Claude 則基於偏好模型訓練，這種方法又被稱為「AI 反饋強化學習」，即RLAIF。

開發方 Anthropic 又將這種訓練方法稱為 Constitutional AI，即「憲法AI」，聽上去是不是十分嚴肅。該方法在訓練過程中為模型制定了一些原則或約束條件，模型生成內容時要遵循這些如同「憲法」般的規則，以便讓系統與人類價值觀保持一致。而且，這些安全原則可以根據用戶或開發者的反饋進行調整，使模型變得更可控。

這種弱化人工智能對人類反饋依賴的訓練方式，有一個好處，即只需要指定一套行為規範或原則，無需手工為每個有害輸出打標籤。 Anthropic 認為，用這種方法訓練能夠讓自然語言大模型無害化。

Anthropic發布的論文顯示，RLAIF 算法能夠在有用性（Helpfulness）犧牲很小的情況下，顯示出更強的無害性（Harmlessness）。

不同訓練方法中模型效果的對比。圖片自 Anthropic 論文《Constitutional AI: Harmlessness from AI Feedback》

說起來，Claude 的研發機構Anthropic與OpenAI淵源頗深，創辦人Dario Amodei曾擔任 OpenAI 研究副總裁，主導的正是安全團隊。

2020年，Dario Amodei 因 OpenAI 加速商業化而忽視產品安全，與團隊產生分歧，最終出走。 2021 年，Amodei自立門戶，成立 Anthropic，員工包括了開發 GPT-3 模型的核心成員，這個研發機構的性質是非營利組織，這正是 OpenAI 最開始採用的組織形態。

今年 3 月，Anthropic 以開發有用、誠實和無害的 AI 系統為理念，推出 Claude。近期，這個對話機器人已經集成進 Slack—— 一個聚合型的「海外版」釘釘、融合了幾千個第三方企業辦公軟體的應用。目前，用戶能在 Slack 中與這個對話機器人互動。

推出 Claude 後，Anthropic 今年拿到了來自、Spark Capital 和 Ventures 的投資。資方裡的可以說是 OpenAI 的「金主」在 AI 領域的勁敵，Claude 也被視作最能與 ChatGPT 打一打的產品。

「偏見最小」 Sparrow 箭在弦上

還有一個走「無害」路線的大模型也在醞釀中了，它就是 DeepMind 開發的對話機器人 Sparrow，這款產品目前還未面向公眾開放，但「DeepMind 製造」的名頭足以吊起外界胃口。

說到人工智慧，業內很難繞開「DeepMind」這家公司，它最知名的產品是 AlphaGo（俗稱「阿爾法狗」），就是那個 2019 年擊敗了圍棋名手李世石的人工智慧圍棋軟體。

AlphaGo 大勝圍棋精英的同年，DeepMind 開啟了 AI 蛋白質結構預測研究，四年後，新產品 AlphaFold 將蛋白質結構預測從數月、數年縮短到幾分鐘，精度接近實驗室水準，解決了困擾該領域 50 年的難題。

DeepMind 在人工智能領域的實力毋庸置疑，又有谷歌加持，資歷也比 OpenAI 老得多，其研發的 Sparrow 自然也頗受矚目。這款對話機器人建立在 Chinchilla 語言模型之上，被認為是「偏見最小」的機器學習系統之一。

當 ChatGPT 因為倫理風險被推上風口浪尖後，DeepMind 立馬打起「安全牌」，「雖然我們致力於讓機器變得智能，但我們希望將人性置於我們工作的中心」， CEO Demis Hassabis 向世界傳達了他的態度，強調 DeepMind 構建 Sparrow 的方法「將促進更安全的人工智慧系統」。

雖然 Sparrow 的產品沒公示，但 DeepMind 披露的資訊顯示，該對話機器人同樣採用了「強化學習」的訓練方法，模型會根據當前對話生成多個候選回復，讓標註人員去判斷哪個回復最好、哪些回覆違反了預先設置好的規則等；基於這些反饋，DeepMind 訓練出對應的 Reward 模型，再用強化學習算法優化 Sparrow 的生成結果。

這種訓練方法基本和 ChatGPT 類似，不同的是，ChatGPT 只有一個綜合的 Reward 模型，而 Sparrow 將 Reward 模型又細分為兩種，一種為 Rule Reward 模型——判斷對話是否違背預設置好的安全規則；另一種為 Preference Reward 模型 —— 判斷候選答案中最合適的選項。簡單來說，就是給模型「立規矩」，投餵「好答案」，當然，這個「好」依然是基於人類的價值判斷。