蘋果重磅开源 OpenELM模型引領AI新紀元 搭載智能引擎的iPhone即將問世
發表於 2024-05-07 12:47 作者: 元宇宙之心
蘋果重磅开源 OpenELM模型引領AI新紀元 搭載智能引擎的iPhone即將問世
來源:元宇宙之心
就在谷歌、三星和微軟繼續在個人電腦和移動設備上大力推廣人工智能生成技術的同時,蘋果也加入了這一行列,推出了OpenELM。
這是一個全新的开源大型語言模型(LLM)系列,可以完全在單個設備上運行,而無需連接雲服務器。
01.模型特點與性能
當地時間周三,OpenELM在人工智能代碼社區Hugging Face上發布,它由一系列小型模型組成,旨在高效執行文本生成任務。
OpenELM共有八個模型:四個預訓練模型和四個指令調整模型,涵蓋從2.7億到30億個不同參數(參數指LLM中人工神經元之間的連接數,通常參數越多表示性能越強、功能越多)。
雖然預訓練是讓LLM生成連貫且可能有幫助的文本的方法,但它主要是一種預測性練習,而指令調整則是讓LLM對用戶的特定請求做出更相關輸出的方法。
預訓練可能導致模型只是用簡單的文本來完成提示,例如,面對用戶的提示“教我如何烤面包”,模型可能會作出“用家裏的烤箱”的類似回應,而不是實際的分步指導。
蘋果公司在其所謂的“示例代碼許可”下提供了OpenELM模型的權重,以及不同的訓練檢查點、模型性能統計、預訓練、評估、指令調整和參數微調等說明。
“示例代碼許可證”並不禁止商業使用或修改,只是規定“如果不加修改地重新發布蘋果軟件的全部內容,必須在文本中保留本通知”。
蘋果公司進一步指出,這些模型“沒有任何安全保證”。因此,這些模型在響應用戶提示時有可能產生“不准確、有害、有偏見或令人反感的輸出結果”。
蘋果是一家出了名的神祕和典型的“封閉”科技公司,除了在網上發布這些模型和論文之外,還沒有公开宣布過其在這一領域的研究過程。
此外,早在去年的10月份,蘋果公司就悄然發布了具有多模態功能的开源語言模型Ferret,成爲頭條新聞。
OpenELM是开源高效語言模型“Open-source Efficient Language Models”的縮寫,雖然剛剛發布,尚未進行公开測試,但蘋果公司在HuggingFace上的列表表明,它正將目標鎖定在模型的設備應用上,就像競爭對手谷歌、三星和微軟一樣。
值得注意的是,微軟本周剛剛發布了可完全在智能手機上運行的Phi-3 Mini模型。
02.技術細節與訓練過程
蘋果公司在一篇介紹該模型系列的論文中指出:OpenELM的开發“由Sachin Mehta領導,Mohammad Rastegari和Peter Zatloukal也是主要貢獻者”,該模型系列“旨在授權和加強开放研究社區,促進未來的研究工作”。
OpenELM模型共有四種參數規模:2.7億、4.5億、11億和30億,每種規模都小於許多高性能模型(它們通常有大約70億個參數),每種模型都有一個預訓練和指導版本。
這些模型是在來自Reddit、維基百科、arXiv.org等網站的1.8萬億個token的公共數據集上預先訓練的。
這些模型適合在商用筆記本電腦甚至某些智能手機上運行,基准測試則是在“英特爾i9-13900KF CPU、英偉達RTX 4090 GPU、Ubuntu 22.04工作站、macOS 14.4.1的MacBook Pro”上運行的。
有趣的是,新系列中的所有機型都採用了分層縮放策略,在變壓器模型的每一層中分配參數。
據蘋果公司稱,這使它們能夠在提高計算效率的同時提供更高的精度結果。同時,蘋果使用新的CoreNet庫對模型進行了預訓練。
蘋果公司在HuggingFace上指出:“我們的預訓練數據集包含RefinedWeb、重復的PILE、RedPajama的一個子集和Dolma v1.6的一個子集,總計約1.8萬億個token。”
在性能方面,蘋果公司分享的OpenLLM結果表明,這些模型的性能相當不錯,尤其是4.5億個參數的指示變體。
此外,擁有11億個參數的“OpenELM變體”比擁有12億個參數的“OLMo”高出2.36%,同時所需的預訓練token減少了2倍。
OLMo是Allen人工智能研究所(AI2)最近發布的“真正开源、最先進的大型語言模型”。
03.性能測試與社區反饋
在旨在測試知識和推理能力的ARC-C基准測試中,預訓練的OpenELM-3B變體的准確率爲42.24%。同時,在MMLU和HellaSwag上,它的准確率分別爲26.76%和73.28%。
一位已經开始測試OpenELM模型的用戶指出:該模型似乎是一個“可靠的模型,但非常統一”,這意味着它的回復既沒有廣泛的創造性,也不可能涉足NSFW領域。
競爭對手微軟最近推出的Phi-3 Mini,擁有38億個參數和4k上下文長度,目前在這一領域處於領先地位。
根據最近分享的統計數據,OpenELM在10次ARC-C基准測試中的得分率爲84.9%,在5次MMLU測試中的得分率爲68.8%,在5次HellaSwag測試中的得分率爲76.7%。
從長遠來看,OpenELM的性能有望得到提升。
但蘋果公司的开源舉措已經讓社區興奮不已,我們將拭目以待社區如何在不同環境中使用OpenELM。
04.蘋果的人工智能愿景
蘋果公司一直對其生成式人工智能計劃保持沉默,但隨着新人工智能模型的發布,該公司近期的雄心似乎堅定地落在了“讓人工智能在蘋果設備上本地運行”的領域。
蘋果公司首席執行官Tim Cook曾預告說:“人工智能生成功能將出現在蘋果設備上”。並在今年2月表示,蘋果公司正在該領域花費“大量的時間和精力”。不過,蘋果公司尚未透露人工智能應用的具體細節。
該公司之前發布過其他人工智能模型,不過還沒有像競爭對手那樣發布任何用於商業用途的人工智能基礎模型。
除了OpenELM,去年12月,蘋果曾推出了機器學習框架MLX,該框架的理想狀態是讓人工智能模型更容易在蘋果硅上運行。此外,還發布了一個名爲MGIE的圖像編輯模型,讓人們通過提示來修復照片。以及一個名爲Ferret-UI的模型可用於智能手機導航。
不過,即使蘋果發布了這么多模型,據說該公司還是與谷歌和OpenAI進行了聯系,希望將它們的模型引入蘋果產品。
標題:蘋果重磅开源 OpenELM模型引領AI新紀元 搭載智能引擎的iPhone即將問世
地址:https://www.coinsdeep.com/article/121296.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
上一篇