Filecoin:深入探討分布式數據計算的重要性和商業潛力
發表於 2023-09-02 17:00 作者: FilecoinNetwork
編者按:本文主要取材於 David Aronchick 在 2023 年巴黎 Filecoin Unleashed 大會上的演講。David 是Expanso的首席執行官,也是協議實驗室(Protocol Labs)的前數據計算負責人,該實驗室負責Bacalhau項目的啓動。本文僅代表原創內容創作者的獨立觀點,並已獲得重新發布的許可。
據IDC稱,截至 2025 年,全球存儲的數據量將超過 175 ZB。這是一個龐大的數據量,相當於 175 萬億個 1 GB 的 U 盤。這些數據大部分在 2020 年至 2025 年之間產生,預計復合年增長率爲 61% 。
如今,快速增長的數據圈出現了兩大挑战:
移動數據既緩慢又昂貴。若您試圖以目前的帶寬下載 175 ZB 的數據,大約需要 18 億年。
合規任務繁重。全球有數百種與數據相關的管理規定,使得跨司法管轄區的合規任務幾乎不可能完成。
網絡增長乏力和監管限制的綜合結果是,近 68% 的機構數據處於闲置狀態。正因如此,將計算資源轉移至數據存儲地(廣義上稱之爲 compute-over-data ,即“數據計算”)而不是將數據轉移至計算地變得尤爲重要,Bacalhau 等數據計算(CoD)平台正在爲此而努力。
在接下來的章節中,我們將簡要介紹:
當下的機構如何處理數據。
提出基於“數據計算”的替代解決方案。
最後,假設分布式計算爲何重要。
現狀
目前,機構應對數據處理挑战的方式主要有以下三種方式,但均不理想。
使用集中式系統
最常見的方法是使用集中式系統進行大規模數據處理。我們經常看到機構將 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray 等計算框架結合起來使用,形成一個連接到集中式 API 服務器的集群系統網絡。然而,這些系統無法有效解決網絡違規問題以及其他有關數據移動性的監管問題。
這在一定程度上導致機構因數據泄露而遭受數十億美元的管理罰款和處罰。
自行構建
另一種方法是讓开發人員建設定制的協調系統,該系統應具備機構所需的認知度和穩健性。這種方法很新穎,但由於過度依賴少數人來維護和運行系統,往往面臨失敗風險。
無所作爲
令人驚訝的是,大多數情況下,機構對其數據無所作爲。例如,一個城市每天可以從監控錄像中收集大量數據,但由於成本高昂,這些數據僅支持在本地機器上查看,既不能歸檔,也不能處理。
構建真正的分布式計算
數據處理痛點主要有兩種解決方案。
解決方案一:構建在开源數據計算平台之上
解決方案一:开源數據計算平台
开發人員可以使用开源分布式數據平台進行計算,而不是使用前文提到的定制協調系統。因爲該平台开源且可擴展,機構只需構建所需的組件即可。這種設置可滿足多雲、多計算、非數據中心的應用場景,並能駕馭復雜的監管環境。重要的是,开源社區的訪問權限不再依賴於一個或多個开發人員進行系統維護,從而降低了發生故障的可能性。
解決方案二:構建在分布式數據協議之上
在 Bacalhau 和 Lilypad 等先進計算項目的幫助下,开發人員可以更進一步,不僅在解決方案一中提到的开源數據平台上構建系統,還可以在 Filecoin 網絡等真正的分布式數據協議上構建系統。
解決方案二:分布式數據計算協議
這意味着機構可以使用分布式協議,這些協議懂得如何以更精細的方式協調和描述用戶問題,從而解鎖緊鄰數據生成和存儲位置的計算區域。這種從數據中心到分布式協議的轉換可以在理想情況下進行,且僅需對數據科學家的經驗做出少量改動。
分布式意味着選擇最大化
通過在 Filecoin 網絡等分布式協議上進行部署,我們的愿景是用戶可以訪問同一網絡上分布在不同地區的數百(或數千台)機器,並遵循與其他機器相同的協議規則。這本質上爲數據科學家打开了一個充滿選擇的海洋,因爲他們可以請求網絡:
選擇世界上任何地方的數據集。
遵循任何治理結構,無論是 HIPAA、GDPR 還是 FISMA。
盡可能以最低廉的價格運行。
胡安三角|解碼縮略語:FHE(完全同態加密),MPC(多方計算),TEE(可信執行環境),ZKP(零知識證明)
說起選擇最大化的概念,就不得不提“胡安三角(Juans triangle)”,該術語是在 Protocol Labs 的創始人Juan Benet 解釋爲何不同用例(在未來)會有不同的分布式計算網絡來支持時創造的。
胡安三角提出,計算網絡通常需要在隱私、可驗證性和性能這三者之間進行權衡,傳統的“一刀切”方法很難適用於每種使用情況。相反,分布式協議的模塊化特性使不同的分布式網絡(或子網絡)能夠滿足不同的用戶需求——無論是隱私、可驗證性還是性能。最終,我們將根據自己認爲重要的因素進行優化。屆時,將有許多方服務提供者(如三角形內方框所示)填補這些空白,並使分布式計算成爲現實。
總而言之,數據處理是一個復雜的問題,需要开箱即用的解決方案。利用开源數據計算來替代傳統的集中式系統是很好的第一步。最終,在 Filecoin 網絡等分布式協議上部署計算平台,可以根據用戶的個性化需求自由配置計算資源,這在大數據和人工智能時代至關重要。
標題:Filecoin:深入探討分布式數據計算的重要性和商業潛力
地址:https://www.coinsdeep.com/article/40086.html
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。