字節跳動狂掃全球網路數據速度超越Open...

首頁
深度財富
期貨
字節跳動狂掃全球網路數據速度超越OpenAI 25倍

字節跳動狂掃全球網路數據速度超越OpenAI 25倍

發表於 2024-10-10 00:00 作者：區塊鏈情報速遞pro

為訓練AI模型，字節跳動蒐集數據速度之快，已超越業界龍頭。（路透檔案照）

〔編譯陳成良／綜合報導〕熱門短影音平台TikTok母公司、中國企業「字節跳動」（ByteDance），為訓練其生成式AI模型，正積極蒐集網路數據，其自行研發的網路爬蟲程式「Bytespider」，蒐集數據速度之快，已超越業界龍頭。

美國財富雜誌《Fortune》報導，根據網路資安公司Kasada（專精於線上數據的機器人管理）和Dark Visitors（監控網路爬蟲程式）的研究，字節跳動於4月推出Bytespider網路爬蟲程式的數據蒐集速度，遠勝過Google、Meta、Amazon、OpenAI和Anthropic等主要科技公司所使用的網路爬蟲程式。

Kasada執行長克勞瑟（Sam Crowther）指出，Bytespider的數據蒐集速度，約為OpenAI用於訓練ChatGPT的GPTbot的25倍，更是Anthropic公司Claude平台的ClaudeBot的3000倍。而且，Bytespider近6週的數據蒐集活動，呈現大幅增加的趨勢，顯示其蒐集數據的積極程度與日俱增。

字節跳動積極蒐集數據的行為，正值TikTok可能在未來幾個月內遭美國禁用之際。美國總統拜登已簽署法案，基於國家安全考量，要求字節跳動出售TikTok或關閉其在美國的營運。

研究顯示，Bytespider與OpenAI和Anthropic的網路爬蟲程式一樣，無視robots.txt的設定。 robots.txt是網站發布者設定的程式碼，雖然不具法律約束力，但本應告知網路爬蟲程式，不得蒐集該網站的數據。

網路數據蒐集已行之有年，搜尋引擎長期以來即運用此技術蒐集網頁連結。然而，生成式AI的興起，使數據蒐集的議題更加複雜，也引發更多版權爭議。所有生成式AI工具的模型，都是以大量的線上數據為基礎訓練而成，這些數據幾乎涵蓋網路上的所有資訊，尤其以文字資訊為主。科技公司利用網路爬蟲程式免費複製這些數據，再將其納入自己的資料集中。

克勞瑟認為，Bytespider積極蒐集數據的行為，顯示字節跳動正急於在生成式AI領域追趕其他公司。據報導，字節跳動去年在生成式AI領域落後許多，甚至還曾違反OpenAI服務條款，使用OpenAI來協助開發自身的LLM（大型語言模型）。字節跳動今年稍早推出名為「豆包」（Doubao）的聊天式LLM，但該模型的開發應早於Bytespider蒐集最新數據的時間點。

知情人士透露，字節跳動正積極研發新型LLM，目標之一是提升TikTok的搜尋功能。 TikTok上月底更新搜尋功能，讓廣告主能即時搜尋TikTok上的熱門關鍵字，以便設計更有效的廣告。知情人士表示，搭載新AI模型，並整合最新的網路趨勢和主題數據，將可提升TikTok的搜尋體驗，讓TikTok的搜尋環境更具競爭力，甚至能瓜分Google的廣告市場。

標題：字節跳動狂掃全球網路數據速度超越OpenAI 25倍

地址：https://www.coinsdeep.com/article/168973.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

京華城土地遭扣押聯貸銀行團今天與中石化開會

黎巴嫩危機加劇歐盟開闢「空中橋梁」運送物資

你可能還喜歡

日銀行員偷客戶保險箱4.2億元監守自盜4年才被逮

3神祕「鯨魚」貢獻上兆營收外媒點名口袋最深是客戶「他們」

單押中國市場嚐苦果奧迪淨利跌91％、BMW跌84％

最貴硬碟！英男宣稱誤丟現值243億比特幣垃圾掩埋場拒開挖

中國重啟日本國民免簽入境月底上路

青年失業率高！中國鼓勵大學畢業生「當清潔工」網諷:搶大媽市場

字節跳動狂掃全球網路數據 速度超越OpenAI 25倍

熱門資訊

字節跳動狂掃全球網路數據速度超越OpenAI 25倍