ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因
發表於 2023-03-07 14:39 作者: Defi之道
撰文:Tanya Malhotra
來源:Marktechpost
編譯:DeFi 之道
圖片來源:由無界版圖AI工具生成
隨着生成性人工智能在過去幾個月的巨大成功,大型語言模型(LLM)正在不斷改進。這些模型正在爲一些值得注意的經濟和社會轉型做出貢獻。OpenAI 开發的 ChatGPT 是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如 Pathways 語言模型(PaLM)、Chinchilla 等,在模仿人類方面也有很好的表現。
大型語言模型使用強化學習(reinforcement learning,RL)來進行微調。強化學習是一種基於獎勵系統的反饋驅動的機器學習方法。代理(agent)通過完成某些任務並觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務後會得到積極的反饋,而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功於強化學習。
ChatGPT 使用來自人類反饋的強化學習(RLHF),通過最小化偏差對模型進行微調。但爲什么不是監督學習(Supervised learning,SL)呢?一個基本的強化學習範式由用於訓練模型的標籤組成。但是爲什么這些標籤不能直接用於監督學習方法呢?人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因,即爲什么強化學習被用於微調而不是監督學習。
不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF 則被訓練來估計產生反應的質量,而不僅僅是排名分數。
Sebastian Raschka 分享了使用監督學習將任務重新表述爲一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對於實現用戶和 ChatGPT 之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。
不選擇 SL 的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠 SL 是不夠的,RLHF 對於考慮整個對話的背景和連貫性是必要的。
監督學習可以用來訓練一個模型,但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示,RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵,而 SL 由於其文本段落級的損失函數而未能很好做到這一點。
像 InstructGPT 和 ChatGPT 這樣的 LLMs 同時使用監督學習和強化學習。這兩者的結合對於實現最佳性能至關重要。在這些模型中,首先使用 SL 對模型進行微調,然後使用 RL 進一步更新。SL 階段允許模型學習任務的基本結構和內容,而 RLHF 階段則完善模型的反應以提高准確性。
標題:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因
地址:https://www.coinsdeep.com/article/11111.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。