字節跳動狂掃全球網路數據 速度超越OpenAI 25倍
發表於 2024-10-10 00:00 作者: 區塊鏈情報速遞pro
為訓練AI模型,字節跳動蒐集數據速度之快,已超越業界龍頭。(路透檔案照)
〔編譯陳成良/綜合報導〕熱門短影音平台TikTok母公司、中國企業「字節跳動」(ByteDance),為訓練其生成式AI模型,正積極蒐集網路數據,其自行研發的網路爬蟲程式「Bytespider」,蒐集數據速度之快,已超越業界龍頭。
美國財富雜誌《Fortune》報導,根據網路資安公司Kasada(專精於線上數據的機器人管理)和Dark Visitors(監控網路爬蟲程式)的研究,字節跳動於4月推出Bytespider網路爬蟲程式的數據蒐集速度,遠勝過Google、Meta、Amazon、OpenAI和Anthropic等主要科技公司所使用的網路爬蟲程式。
Kasada執行長克勞瑟(Sam Crowther)指出,Bytespider的數據蒐集速度,約為OpenAI用於訓練ChatGPT的GPTbot的25倍,更是Anthropic公司Claude平台的ClaudeBot的3000倍。 而且,Bytespider近6週的數據蒐集活動,呈現大幅增加的趨勢,顯示其蒐集數據的積極程度與日俱增。
字節跳動積極蒐集數據的行為,正值TikTok可能在未來幾個月內遭美國禁用之際。 美國總統拜登已簽署法案,基於國家安全考量,要求字節跳動出售TikTok或關閉其在美國的營運。
研究顯示,Bytespider與OpenAI和Anthropic的網路爬蟲程式一樣,無視robots.txt的設定。 robots.txt是網站發布者設定的程式碼,雖然不具法律約束力,但本應告知網路爬蟲程式,不得蒐集該網站的數據。
網路數據蒐集已行之有年,搜尋引擎長期以來即運用此技術蒐集網頁連結。然而,生成式AI的興起,使數據蒐集的議題更加複雜,也引發更多版權爭議。 所有生成式AI工具的模型,都是以大量的線上數據為基礎訓練而成,這些數據幾乎涵蓋網路上的所有資訊,尤其以文字資訊為主。 科技公司利用網路爬蟲程式免費複製這些數據,再將其納入自己的資料集中。
克勞瑟認為,Bytespider積極蒐集數據的行為,顯示字節跳動正急於在生成式AI領域追趕其他公司。 據報導,字節跳動去年在生成式AI領域落後許多,甚至還曾違反OpenAI服務條款,使用OpenAI來協助開發自身的LLM(大型語言模型)。 字節跳動今年稍早推出名為「豆包」(Doubao)的聊天式LLM,但該模型的開發應早於Bytespider蒐集最新數據的時間點。
知情人士透露,字節跳動正積極研發新型LLM,目標之一是提升TikTok的搜尋功能。 TikTok上月底更新搜尋功能,讓廣告主能即時搜尋TikTok上的熱門關鍵字,以便設計更有效的廣告。 知情人士表示,搭載新AI模型,並整合最新的網路趨勢和主題數據,將可提升TikTok的搜尋體驗,讓TikTok的搜尋環境更具競爭力,甚至能瓜分Google的廣告市場。
標題:字節跳動狂掃全球網路數據 速度超越OpenAI 25倍
地址:https://www.coinsdeep.com/article/168973.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。