2024 Google I/O 發布會匯總

首頁
專家專欄
2024 Google I/O 發布會匯總

2024 Google I/O 發布會匯總

發表於 2024-05-15 08:23 作者：有新Newin

來源：有新Newin

5 月 15 日凌晨，Google I/O 开發者大會正式召开，以下是長達 2 小時發布會內容總結：

1. 關於 Gemini

1）Gmail 中的 Gemini

Gmail 用戶將能夠使用 Gemini AI 技術搜索、總結和起草電子郵件。它還能夠對電子郵件採取行動以執行更復雜的任務，例如通過搜索收件箱、查找收據和填寫在线表格來幫助你處理電商退貨。

2）Gemini 1.5 Pro & Flash

另一個升級是 Gemini 現在可以分析比以前更長的文檔、代碼庫、視頻和音頻記錄。谷歌目前的旗艦機型 Gemini 1.5 Pro 新版本的私人預覽中，據透露，它最多可以容納 200 萬 token。這是之前的兩倍，新版 Gemini 1.5 Pro支持所有商用型號中最大的輸入。

對於要求較低的應用，谷歌推出了公共預覽版 Gemini 1.5 Flash，這是 Gemini 1.5 Pro 的“精煉”版本，是專爲“窄”、“高頻”生成 AI 工作負載而構建的小型高效模型。Flash 擁有多達 200 萬個 token 上下文窗口，與 Gemini 1.5 Pro 一樣是多模式的，這意味着它可以分析音頻、視頻和圖像以及文本。

此外，超過 150 個國家/地區和超過 35 種語言的 Gemini Advanced 用戶可以利用 Gemini 1.5 Pro 的更大上下文，讓聊天機器人分析、總結和回答有關長文檔（最多 1,500 頁）的問題。

Gemini Advanced 用戶可以從今天开始與 Gemini 1.5 Pro 進行交互，還可以從 Google Drive 導入文檔或直接從移動設備上傳文檔。

在接下來的幾個月中，Gemini Advanced 將獲得一種新的“規劃體驗”，可以根據提示創建自定義旅行行程。考慮到飛行時間（來自用戶 Gmail 收件箱中的電子郵件）、膳食偏好和當地景點信息（來自 Google 搜索和地圖數據）以及這些景點之間的距離等因素，Gemini 將生成自動更新的行程以反映任何變化。

在不久的將來，Gemini Advanced 用戶將能夠創建 Gems，這是由 Google Gemini 模型提供支持的自定義聊天機器人。沿着 OpenAI 的 GPT 的思路，Gems 可以從自然語言描述生成 - 例如，“你是我的跑步教練。給我一個每日跑步計劃”——並與他人分享或保密。

很快，Gems 和 Gemini 將能夠利用與 Google 服務的擴展集成，包括 Google 日歷、任務、Keep 和 YouTube Music，以完成各種省力任務。

3）Gemini Live

谷歌預覽了 Gemini 中名爲 Gemini Live 的新體驗，它可以讓用戶在智能手機上與 Gemini 進行“深入”的語音聊天。

用戶可以在聊天機器人說話時打斷 Gemini，提出澄清問題，它會實時適應他們的語音模式。Gemini 可以通過智能手機攝像頭拍攝的照片或視頻來查看用戶的周圍環境並對其做出反應。

谷歌表示，它利用生成式 AI 新技術來提供卓越的、不易出錯的圖像分析，並將這些技術與增強的語音引擎相結合，以實現更一致、情感表達和現實的多輪對話。

從某種程度上來說，Gemini Live 是Google Lens（谷歌長期用於分析圖像和視頻的計算機視覺平台）和 Google Assistant（谷歌跨手機、智能音箱和電視的人工智能驅動、語音生成和識別虛擬助手）的演變。

DeepMind 首席科學家 Oriol Vinyals 表示，這是一個實時語音界面，具有極其強大的多模式功能和長上下文。

推動 Live 的技術創新部分源於 Project Astra，這是 DeepMind 內部的一項新舉措，旨在創建 AI 驅動的應用和智能體，以實現實時、多模式理解。

DeepMind CEO Demis Hassabis 表示，谷歌一直希望打造一款在日常生活中有用的通用智能體，想象一下代理可以看到和聽到我們所做的事情，更好地了解我們所處的環境並在對話中快速做出反應，從而使交互的速度和質量感覺更加自然。

據悉，Gemini Live 直到今年晚些時候才會推出，它可以回答有關智能手機攝像頭視野內（或最近視野內）事物的問題，例如用戶可能位於哪個社區或損壞的自行車上的某個部件的名稱。指向計算機代碼的一部分，Live 可以解釋該代碼的作用。或者，當被問及一副眼鏡可能在哪裏時，Live 可以說出它最後一次“看到”眼鏡的位置。

Live 還被設計爲某種虛擬教練，幫助用戶排練活動、集思廣益等。例如，Live 可以建議在即將到來的工作或實習面試中強調哪些技能，或者提供公开演講建議。

新的 ChatGPT 和 Gemini Live 之間的一個主要區別是 Gemini Live 不是免費的。一旦推出，Live 將是 Gemini Advanced 的專屬版本，Gemini Advanced 是 Gemini 的更復雜版本，受 Google One AI Premium Plan 保護，價格爲每月 20 美元。

4）Gemini Nano

谷歌還從 Chrome 126 开始，將最小的 AI 模型 Gemini Nano 直接構建到 Chrome 桌面客戶端中。谷歌表示，這將使开發人員能夠使用設備上的模型來支持自己的 AI 功能。例如，谷歌計劃利用這一新功能來支持 Gmail 中 Workspace Lab 現有的“幫助我寫作”工具等功能。

谷歌 Chrome 產品管理總監 Jon Dahlke 指出，谷歌正在與其他瀏覽器供應商進行談判，以便在他們的瀏覽器中啓用此功能或類似功能。

5）Android 上的 Gemini

谷歌在 Android 上的 Gemini 是 Google Assistant 的 AI 替代品，很快將利用其與 Android 移動操作系統和谷歌應用程序深度集成的能力。

用戶將能夠將 AI 生成的圖像直接拖放到他們的 Gmail、Google Messages 和其他應用程序中。

谷歌表示，與此同時，YouTube 用戶將能夠點擊“詢問此視頻”，從該 YouTube 視頻中查找特定信息。

購买升級版 Gemini Advanced的用戶還可以使用“詢問此 PDF”選項，讓您無需閱讀所有頁面即可從文檔中獲得答案。Gemini Advanced 訂閱者每月支付 19.99 美元即可訪問 AI，並獲得 2TB 存儲空間以及其他 Google One 福利。

谷歌表示，Android 版 Gemini 的最新功能將在未來幾個月內推廣到數億受支持的設備。隨着時間的推移，Gemini 將不斷發展，提供與屏幕上的內容相關的其他建議。

與此同時，Android 設備上的基礎模型 Gemini Nano 將升級以包含多模態。這意味着它將能夠處理文本輸入以及其他處理信息的方式，包括視覺、聲音和口語。

6）谷歌地圖上的 Gemini

從 Places API 开始，Gemini 模型功能將登陸 Google 地圖平台供开發者使用。开發人員可以在自己的應用程序和網站中顯示地點和區域的生成 AI 摘要。這些摘要是基於 Gemini 對 Google 地圖社區超過 3 億貢獻者的見解分析而創建的。

這些摘要是基於 Gemini 對 Google 地圖社區超過 3 億貢獻者的見解分析而創建的。借助這項新功能，开發人員將不再需要編寫自己的自定義地點描述。

例如，如果开發人員有一個餐廳預訂應用程序，這項新功能將幫助用戶了解哪家餐廳最適合他們。當用戶在應用程序中搜索餐廳時，他們將能夠快速查看所有最重要的信息，例如餐廳特色菜、歡樂時光優惠和餐廳氛圍。

新的摘要適用於多種類型的場所，包括餐館、商店、超市、公園和電影院。谷歌還將 AI 驅動的上下文搜索結果引入 Places API。當用戶在开發者的產品中搜索地點時，开發者現在可以顯示與其搜索相關的評論和照片。

7）TPU 性能得到提升

谷歌推出了下一代——確切地說是第六代——TPU AI 芯片。它們被稱爲 Trillium，將於今年晚些時候推出。如果您還記得的話，宣布下一代 TPU 已成爲 I/O 大會上的一項傳統，盡管這些芯片僅在今年晚些時候推出。

與第五代相比，這些新型 TPU 的每芯片計算性能將提高 4.7 倍。Trillium 具有第三代 SparseCore，谷歌將其描述爲“用於處理高級排名和推薦工作負載中常見的超大型嵌入的專用加速器。

Pichai 將新芯片描述爲谷歌迄今爲止“最節能”的 TPU，隨着對 AI 芯片的需求持續呈指數級增長，這一點尤其重要。

他表示，過去六年，行業對 ML 計算的需求增長了 100 萬倍，每年大約增長十倍，如果不投資降低這些芯片的功耗需求，這是不可持續的。谷歌承諾，新型 TPU 的能效比第五代芯片高 67%。

此外，谷歌在 Gemma 2 中添加一個新的 270 億參數模型。下一代谷歌 Gemma 模型將於 6 月推出。谷歌表示，這個尺寸經過 Nvidia 優化，可以在下一代 GPU 上運行，並且可以在單個 TPU 主機和頂點 AI 上高效運行。

2. 新模型&項目

1）Imagen3

谷歌推出了 Imagen 模型的最新產品 —— Imagen 3。DeepMind CEO Demis Hassabis 表示，與前身 Imagen 2 相比，Imagen 3 能夠更准確地理解翻譯成圖像的文本提示，並且比前幾代產品更加富有創意和細致。

爲了減輕人們對深度僞造的可能性的擔憂，谷歌表示 Imagen 3 將使用SynthID，這是 DeepMind 开發的一種方法，可將不可見的加密水印應用於媒體。

谷歌的 ImageFX 工具可以注冊 Imagen 3 的私人預覽版，谷歌表示，該模型將“很快”提供給使用谷歌企業生成式 AI 开發平台 Vertex AI 的开發人員和企業客戶。

2）Veo 視頻生成模型

谷歌正在瞄准 OpenAI 的 Sora with Veo，這是一種 AI 模型，可以根據文本提示創建大約一分鐘長的 1080p 視頻剪輯。Veo 可以捕捉不同的視覺和電影風格，包括風景和延時鏡頭，並對已生成的鏡頭進行編輯和調整。

它還建立在谷歌在四月份預覽的視頻生成方面的初步商業工作的基礎上，該工作利用該公司的 Imagen 2 系列圖像生成模型來創建循環視頻剪輯。

Demis Hassabis 表示，谷歌正在探索故事板和生成更長場景等功能，以了解 Veo 的功能，谷歌在視頻方面取得了令人難以置信的進步。

Veo 接受了大量鏡頭的訓練。這就是生成式 AI 模型的工作原理：輸入某種形式數據的一個又一個示例，模型會拾取數據中的模式，使它們能夠生成新數據——在 Veo 的例子中是視頻。

然而，谷歌已經向選定的創作者提供了 Veo，其中包括 Donald Glover（又名 Childish Gambino）和他的創意機構 Gilga。

3）LearnLM 模型

谷歌推出了 LearnLM，這是一個針對學習進行“微調”的新生成 AI 模型系列。這是谷歌 DeepMind AI 研究部門和谷歌研究院之間的合作。谷歌表示，LearnLM 模型旨在“對話式”輔導學生一系列科目。

LearnLM 已經在 Google 的多個平台上可用，且正在通過 Google Classroom 的試點項目來使用 LearnLM。谷歌表示，LearnLM 可以幫助教師發現新的想法、內容和活動，或者找到適合特定學生群體需求的材料。

YouTube 的新功能是 AI 生成的測驗。這種新的對話式 AI 工具允許用戶在觀看教育視頻時象徵性地“舉起”手。觀衆可以提出澄清問題、獲得有用的解釋或就主題進行測驗。

由於 Gemini 模型的長上下文功能，這對於那些必須觀看較長教育視頻（例如講座或研討會）的人來說會有所緩解，這些新功能正在向美國部分 Android 用戶推出。

4）Project IDX

Project IDX 是谷歌下一代、以 AI 爲中心、基於瀏覽器的开發環境，現已進入公开測試階段。

谷歌副總裁兼 Developer X 總經理兼負責人 Jeanine Banks 表示，隨着 AI 變得越來越普遍，部署所有這些技術所帶來的復雜性確實變得越來越困難、越來越大，谷歌希望幫助解決這一挑战。开發商關系，這就是構建 Project IDX 的原因。

IDX 是一種多平台开發體驗，可以讓構建應用程序變得快速、輕松，你可以通過 Next.js、Astro、Flutter、Dart、Angular、Go 等易於使用的模板輕松使用您喜歡的框架或語言。

此外，Google 將與 Google Maps Platform 的集成添加到 IDE 中，幫助向其應用程序添加地理定位功能，並與 Chrome 开發工具和 Lighthouse 集成以幫助調試應用程序。很快，谷歌還將支持將應用程序部署到 Cloud Run，這是 Google Cloud 的無服務器平台，用於運行前端和後端服務。

該开發環境還將與谷歌 AI 驅動的合規平台 Checks 集成，該平台本身將於周二從測試版轉爲正式版。當然，IDX 不僅僅是構建支持 AI 的應用程序，它還涉及在編碼過程中使用 AI。

爲了實現這一點，IDX 包括許多現已成爲標准功能的功能，例如代碼完成和聊天助手側邊欄，以及創新功能，例如突出顯示代碼片段的功能，以及類似於 Photoshop 中的生成填充功能，詢問 Google 的 Gemini 模型更改代碼片段。

每當 Gemini 建議代碼時，它都會鏈接回原始來源及其相關許可證。Project IDX 是 Google 以开源 Visual Studio Code 爲核心構建的，它還與 GitHub 集成，可以輕松地與現有工作流程集成。在 IDX 的最新版本之一中，Google 還在IDE 中爲移動开發人員添加了內置 iOS 和 Android 模擬器。