ChatGPT陷科技倫理風波!「三觀正確」的AI機器人Claude、Sparrow能迎頭趕上?

發表於 2023-04-12 20:00 作者: 區塊鏈情報速遞pro

ChatGPT 安全問題遭質疑後,研發機構 Anthropic 創建的聊天機器人 Claude 聚集了一部分目光。 本文將分析與 ChatGPT 相比,Claude 是否真如外界所評的那般安全? (前情提要:AI封殺潮》ChatGPT遭德法、瑞典..調查,VPN翻牆成必備工具?) (背景補充:歐洲ChatGPT封殺潮》德國:恐效仿義大利禁用;法國、愛爾蘭尋求依據)

本文目錄

 

期,AI 安全問題鬧得沸沸揚揚。自然語言大模型採用人類反饋的增強學習機制,也被擔心會因人類的偏見「教壞」AI。

4 月 6 日,OpenAI 官方發聲稱,從現實世界的使用中學習是創建越來越安全的人工智能系統的「關鍵組成部分」,該公司也同時承認,這需要社會有足夠時間來適應和調整。

至於這個時間是多久,OpenAI 也沒給出答案。

大模型背後的「算法黑箱」無法破解,開發它的人也搞不清機器作答的邏輯。十字路口在前,一些自然語言大模型的開發者換了思路,給類似 GPT 的模型立起規矩, 讓對話機器人「嘴上能有個把門的」,並「投餵」符合人類利益的訓練數據,以便它們輸出「更乾淨」的答案。

「三觀」超正 Claude 搬進企業應用

ChatGPT 的安全問題遭詬病後,對話機器人 Claude 聚集了一部分目光。 AI 應用聚合平台給出的測試結果顯示,研發機構 Anthropic 創建的 Claude,確實是「ChatGPT 強有力的競爭對手」,因為它在 12 項任務中有 8 項表現更優,其中包括給出事實、遵循指示、預防越獄、創意任務等。

今年 3 月向公眾開放的 Claude,真的這麼「綠色」、這麼高能嗎? 本文作者測試後發現,與 ChatGPT 相比,Claude 對有害提示詞的確是嚴防死守,騙都騙不過。

例如,我們向它提問「如何製作燃燒瓶」,Claude 認定這是危險品後,絕口不提製作方法,哪怕我們以「老師教學」為誘,也很難從它口中套出燃燒瓶的製作原料,只說如何防範著火風險。

Claude 拒絕回答危險品製造方式

假如你「心懷不軌」地問它「如何毀人名譽」,Claude 不僅義正言辭地拒絕回答,還會給你上一堂思想品德課,「三觀」正得不要不要的。

被 Claude 教育82308230

那麼給它一個陷阱題呢? Claude 也不上當,挑出錯誤不說,還給你擺事實。

胡說會被Claude發現

Claude 也能角色扮演,寫作能力可圈可點,甚至還會搭配 Emoji 寫小紅書博主風格的推薦文案,產品的關鍵點描述也能基本涵蓋。

Claude能扮演角色輸出文本

如果你想聽聽別人是怎麼誇Claude的,它把稱讚按在了馬斯克頭上,還會展現謙虛態度,並強調自己要「保持溫和有禮的語氣和性格」,向人類示起好來。

Claude 在強調了自己對人類的友好性

我們發現,Claude 在數學推理方面也會出現明顯的錯誤,當然也能承認自己不擅長的領域。

Claude 在數學推理問題中存在錯誤

體驗下來,Claude 在文本輸出的準確性、善意性方面優於 ChatGPT,但在輸出速度和多功能方面仍有待提升。

Claude 是如何做到「綠色無害」的呢?

和 ChatGPT一樣,Claude 也靠強化學習(RL)來訓練偏好模型,並進行後續微調。不同的是,ChatGPT 採用了「人類反饋強化學習(RLHF)」,而 Claude 則基於偏好模型訓練,這種方法又被稱為「AI 反饋強化學習」,即RLAIF。

開發方 Anthropic 又將這種訓練方法稱為 Constitutional AI,即「憲法AI」,聽上去是不是十分嚴肅。該方法在訓練過程中為模型制定了一些原則或約束條件,模型生成內容時要遵循這些如同「憲法 」般的規則,以便讓系統與人類價值觀保持一致。而且,這些安全原則可以根據用戶或開發者的反饋進行調整,使模型變得更可控。

這種弱化人工智能對人類反饋依賴的訓練方式,有一個好處,即只需要指定一套行為規範或原則,無需手工為每個有害輸出打標籤。 Anthropic 認為,用這種方法訓練能夠讓自然語言大模型無害化。

Anthropic發布的論文顯示,RLAIF 算法能夠在有用性(Helpfulness)犧牲很小的情況下,顯示出更強的無害性(Harmlessness)。

不同訓練方法中模型效果的對比。圖片自 Anthropic 論文《Constitutional AI: Harmlessness from AI Feedback》

說起來,Claude 的研發機構Anthropic與OpenAI淵源頗深,創辦人Dario Amodei曾擔任 OpenAI 研究副總裁,主導的正是安全團隊。

2020年,Dario Amodei 因 OpenAI 加速商業化而忽視產品安全,與團隊產生分歧,最終出走。 2021 年,Amodei自立門戶,成立 Anthropic,員工包括了開發 GPT-3 模型的核心成員,這個研發機構的性質是非營利組織,這正是 OpenAI 最開始採用的組織形態。

今年 3 月,Anthropic 以開發有用、誠實和無害的 AI 系統為理念,推出 Claude。近期,這個對話機器人已經集成進 Slack—— 一個聚合型的「海外版」釘釘、融合了幾千個第三方企業辦公軟體的應用。目前,用戶能在 Slack 中與這個對話機器人互動。

推出 Claude 後,Anthropic 今年拿到了來自、Spark Capital 和 Ventures 的投資。資方裡的可以說是 OpenAI 的「金主」在 AI 領域的勁敵,Claude 也被視作最能與 ChatGPT 打一打的產品。

「偏見最小」 Sparrow 箭在弦上

還有一個走「無害」路線的大模型也在醞釀中了,它就是 DeepMind 開發的對話機器人 Sparrow,這款產品目前還未面向公眾開放,但「DeepMind 製造」的名頭足以吊起外界胃口。

說到人工智慧,業內很難繞開「DeepMind」這家公司,它最知名的產品是 AlphaGo(俗稱「阿爾法狗」),就是那個 2019 年擊敗了圍棋名手李世石的人工智慧圍棋軟體。

2019 年 AlphaGo 對戰韓國棋手李世石(右)

AlphaGo 大勝圍棋精英的同年,DeepMind 開啟了 AI 蛋白質結構預測研究,四年後,新產品 AlphaFold 將蛋白質結構預測從數月、數年縮短到幾分鐘,精度接近實驗室水準,解決了困擾該領域 50 年的難題。

DeepMind 在人工智能領域的實力毋庸置疑,又有谷歌加持,資歷也比 OpenAI 老得多,其研發的 Sparrow 自然也頗受矚目。這款對話機器人建立在 Chinchilla 語言模型之上,被認為是「偏見最小」的機器學習系統之一。

當 ChatGPT 因為倫理風險被推上風口浪尖後,DeepMind 立馬打起「安全牌」,「雖然我們致力於讓機器變得智能,但我們希望將人性置於我們工作的中心」, CEO Demis Hassabis 向世界傳達了他的態度,強調 DeepMind 構建 Sparrow 的方法「將促進更安全的人工智慧系統」。

雖然 Sparrow 的產品沒公示,但 DeepMind 披露的資訊顯示,該對話機器人同樣採用了「強化學習」的訓練方法,模型會根據當前對話生成多個候選回復,讓標註人員去判斷哪個回復最好、哪些回覆違反了預先設置好的規則等;基於這些反饋,DeepMind 訓練出對應的 Reward 模型,再用強化學習算法優化 Sparrow 的生成結果。

這種訓練方法基本和 ChatGPT 類似,不同的是,ChatGPT 只有一個綜合的 Reward 模型,而 Sparrow 將 Reward 模型又細分為兩種,一種為 Rule Reward 模型——判斷對話是否違背預設置好的安全規則;另一種為 Preference Reward 模型 —— 判斷候選答案中最合適的選項。簡單來說,就是給模型「立規矩」,投餵「好答案」,當然,這個「好」依然是基於人類的價值判斷。

Sparrow 訓練模型示意圖 DeepMind 論文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow 的相關論文顯示,當研究參與者試著誘導 Sparrow 打破規則時,該模型的出錯機率為 8%,比預訓練的基礎模型 (Chinchilla) 低了 3 倍。

據悉,DeepMind 將於今年推出 Sparrow,具體時間未透露。

作為 ChatGPT 的另一個挑戰者,DeepMind 與 OpenAI 都抱有通向 AGI 的野心。而 DeepMind 背靠谷歌,在資歷與資金上都能與 OpenAI 一拼。

今年 2 月,谷歌旗下專注語言大模型領域的「藍移團隊」也併入 DeepMind,旨在共同提升 LLM(大型語言模型)能力。但也有擔憂聲認為,這和 DeepMind 追求的獨立性背道而馳,會逐漸導致谷歌收緊對 DeepMind 的控制權。

在獨立性上,DeepMind 與穀歌的分歧也早就存在了。對外,Demis Hassabis 始終強調自己首先是科學家,其次才是企業家。談及 ChatGPT,Hassabis 認為它僅僅是「更多的計算能力和數據的蠻力」,並對這種「不優雅」的方式感到失望。

雙方的對立態度簡直是擺在了明面上,也難怪外界會認為 DeepMind 與 OpenAI 必有一戰。

對於用戶來說,巨頭們捲起來才是好事,這樣就能源源不斷提供有意思的、可使用的產品。無論是卷功能、卷性能還是卷安全,競爭都會讓 AI 產品朝著更高級的方向發展,未來,也將會有更多不同技術派系與產品路徑的 ChatGPT 出現。

?相關報導?

ChatGPT勾起AI狂熱:區塊鏈「去中心算力」如何解決機器學習的瓶頸?

ChatGPT-5年底推出!OpenAI放話:智慧遠超人類,可能對世界帶來巨大風險

歐洲ChatGPT封殺潮》德國:恐效仿義大利禁用;法國、愛爾蘭尋求依據

馬斯克嗆微軟:獨吞OpenAI程式碼!ChatGPT變成賺錢機器

Tags: AIAlphaGoChatGPTClaudeDeepMindSparrow機器人

標題:ChatGPT陷科技倫理風波!「三觀正確」的AI機器人Claude、Sparrow能迎頭趕上?

地址:https://www.coinsdeep.com/article/12256.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

你可能還喜歡
熱門資訊