誰拖了中國ChatGPT的後腿？

首頁
專家專欄
誰拖了中國ChatGPT的後腿？

誰拖了中國ChatGPT的後腿？

發表於 2023-07-23 17:40 作者： PingWest品玩

ChatGPT已經成了全球信息技術產業界毋庸置疑的現象級產品。

它以“通用人工智能”的名義，跟人類嘮家常，幫人們起草郵件和律師信，回答一些玄奧的終極哲學問題，寫一段可用的Python代碼，回答一些看似需要復雜和遞進邏輯的問題，根據一些人物設定撰寫一段電影劇本，書寫一首優美的情詩，捉刀大學生的論文作業......似乎人類歷史上還沒有這么一個全能的AI物種。比爾蓋茨說ChatGPT出現的意義“不亞於互聯網的誕生”，微軟CEO納德拉（Satya Nadella）說它堪比工業革命，人工智能口頭愛好者們又一次驚呼“奇點”來臨，普通人再度擔心自己的工作被ChatGPT這樣的全能型AI助手取代......從IBM的“深藍”，到Google的AlphaGo，再到OpenAI的ChatGPT，25年過去了，AI在不斷進化，人類對AI的日常反應卻看不出什么心智上的成熟，這真的是一件令AI开心的事。

我已經用ChatGPT幹過諸多不可描述之事，發現它並不能每每得心應手，卻能在一些看似更艱深的問題上給出更出色的答案和解決方案。比如你問它比亞迪能不能打敗特斯拉，它可能會給出一些結構清晰而無奇、事實謬誤頗多同時又毫無個性的論述；但如果你問它自動駕駛將如何改變一輛汽車的工業設計，它倒是能夠從底盤革新、內飾變化、數字娛樂和外型突破等方面給出充滿由內至外想象的論述。從整體而言，ChatGPT相當的不完美，尤其是在提供令人信服的准確性方面，但它在提供結構化的信息論述、打开想象力和解放創造力等領域經常令人類覺得驚豔。你說不上來它對你有什么無懈可擊的具體用處，但它又能幫你實現和完成一些瑣碎的、冗余的甚至有創造力的事。

正是這么一個看似無用卻有用、看似有用卻無用的ChatGPT，推動它的母公司OpenAI被微軟追加累計的超過100億美元的投資，它用兩天時間突破100萬用戶，Facebook曾經花了305天；它突破1億用戶花了兩個月，就連TikTok也需要9個月——請記住，與Facebook和TikTok不同，ChatGPT還不是一個獨立的消費級互聯網產品，它仍然僅是一個採用了GPT-3自然語言模型的包含1750億參數的大型神經網絡——當它被優先授權給微軟集成在Office和Bing等辦公軟件和搜索引擎服務的時候，才真正地變成一個“可用”的產品。

但這已經讓中國的人工智能獨角獸們夠嫉妒的了。

500名員工，公司整體估值接近300億美元，這是OpenAI；動輒幾千人，公司估值/市值充其量10-20億美元，這是中國的多家AI“小巨頭”。

因爲人效和價值的巨大差距，更因爲ChatGPT對全人類現實社會驟然釋放的影響力，ChatGPT的誕生給中國人工智能領域的刺激是不小的。很多人又跳出來了，感慨中美人工智能差距進一步拉大，中國想趕上這波浪潮“任重道遠”。還有一些人，又开始熱衷探討爲什么中國沒有自己的ChatGPT，結論仍然是“中國缺乏創新土壤”和“中國互聯網公司都在搞直播和买菜”這樣，既不負責又罔顧事實的蠢話。

中國互聯網公司並沒有都在搞直播和买菜，他們在從事半導體开發、AI模型研究和自動駕駛；美國的互聯網公司搞直播、买菜尤其是互聯網金融的時候也很風生水起，那些拿着手電筒和放大鏡拼命找自己問題，極力美化對手，用遮瑕霜不遺余力塗抹對手的問題，把原因歸咎於簡單粗暴的理由的人，可以閉上你們的嘴，這不是反思中國爲什么不能率先誕生自己的生成式人工智能模型的正確姿勢。

作爲在人工智能和自然語義處理領域積累最多的中國互聯網公司，百度過去五年一直在搞自己的深度學習大模型“飛槳“（Paddle Paddle），甚至用自己的通用AI芯片“昆侖芯”訓練自己的模型——它們是百度訓練自己的“ChatGPT”的基本環境和前提。阿裏巴巴、字節跳動和滴滴也都有基於自身需求的自然語義訓練模型。可以說，在訓練復雜的上百億參數的自然語義模型方面，中國的公司和研究機構的“家底”並不薄弱，起點也並不比美國同行低——至少在2016年前後的時候是如此。這幾年中美人工智能界在大模型領域產生的差距，不是意識、起點和能力的問題，而是道路和方法的問題。

中國與美國在類ChatGPT的人機對話模型領域的差距，也不是所謂的監管導致的。如果你與ChatGPT就一些更豐富的宗教、文化、民族和地緣政治等議題展开過坦率的交流的話，你會意識到它在看似拒絕和審慎討論這些議題的背後隱藏着某些特定的立場傾向，是與美國社會普遍公認的主流價值觀微妙重合的。可以說，任何一個，而不是某一個自然語義的復雜模型，其模型建構、語料採集、訓練和參數調整的過程，都是基於特定價值體系的“內容審查”的過程，都有着維系其價值體系的自覺。我們不是應該不應該在自然語義模型裏“生成”中國的價值立場的問題，而是它該如何生成，才能真正地制衡英語主導全球互聯網語料庫必然導致的世界觀與文化霸權，加強中文語言理解基准在全球自然語義處理體系的權重，進而爲世界人工智能和人機對話的發展提供文化上的多樣性。

我也嚴重不同意中文互聯網信息內容質量太糟糕導致中國類ChatGPT模型語料源頭被“污染”的說法，這同樣是既偷懶又顯得大聰明的判斷。因爲互聯網上的信息總量原因，英語內容無疑是世界上最多的，質量堪憂的極端化內容也是最多的，它們都會影響自然語義模型訓練的過程和結果。ChatGPT在早期的訓練中優先使用內容質量較高的社交論壇Reddit上的高贊內容，是有特定的語料選擇傾向的。如果中國優先選擇知乎和得到等知識類社區，以及主流媒體優先作爲語義模型的語料庫的話，就不存在語料被污染的問題。更遑論以大部分持“中文內容質量低”的人們的外語水平和閱讀廣度，根本不足以支撐他們的論斷。

但是無論如何，ChatGPT的橫空出世，對我這么一個多年來一直呼籲“告別硅谷崇拜”的人來說，的確是一個不大不小的刺激，也是一個觀念的挑战。

這不是因爲我覺得中國和美國在人工智能領域競爭的差距就此拉大了，而是因爲ChatGPT這樣的通用人工智能人機對話模型，是一個真正可能從全人類——而不是某一個特定領域和行業的角度，推動社會生產協作與文明進程的工具。其意義大於移動互聯網的出現，堪比電子郵件和搜索引擎的誕生。作爲一個人工智能大國，中國早就不是電子郵件和搜索引擎誕生時期的信息技術產業一窮二白的國家了，但是，我們卻沒有讓這類能影響人類文明進程的通用人工智能的創新首先發生在中國，訓練一個基礎語料由中國文化與價值體系爲建構的模型。

更何況，ChatGPT的模型訓練方式，很大程度上依靠的是“大力出奇跡”的參數升級、反復訓練和模型依據生成內容反饋持續迭代優化——這原本是中國團隊最擅長的工作方法。當一家美國的創業公司用從微軟融來的錢不惜代價投入巨額算力成本，大量僱傭非洲和中東的數據工人進行信息標注、用最高效率的迭代與Google這樣的巨頭進行自研語義處理大模型的“軍備競賽”時，你還是有一種很不真實的感覺——這究竟是一家舊金山公司還是一家深圳公司。

像ChatGPT這樣的自然語義處理模型應該可以誕生在中國但卻沒有誕生在中國，其原因還得從中國從事人工智能的科技公司——無論巨頭還是創業公司這些年在幹什么开始說。

很多人可能從來沒意識到的一個問題是：像ChatGPT這樣的超大規模通用自然語義處理模型，由一家AI創業公司建構最可能產生奇跡，而在一家科技巨頭內部通常不會實現更好的結果。這就是爲什么Google的LaMDA對話應用模型和近期倉促上陣的Bard都沒有大放異彩的原因，也是百度接下來勢必面臨的挑战。

爲什么？首先是因爲通用自然語義處理建模太燒錢了。其實，燒錢通常並不是大公司的本事，反倒是創業公司的特權。科技巨頭幾乎都是上市公司，百億美元級別的投資砸在一項相當長時期看不到回報的事上，首席財務官在面對董事會和股東大會時的壓力是很大的，也經常是被股價懲罰的，這導致大公司不敢做大冒險，不大冒險就不會有大迭代。什么叫“大力出奇跡”？就是先花大錢出大力，然後再祈禱奇跡的發生，而不是默認一定得出現奇跡，然後再決定花錢出力。

可惜，大公司只能是後者。這也是爲什么即便從ChatGPT受益頗豐的微軟，也只敢從一开始的10億美元，歷時四年，直到今年的百億美元，一筆一筆，持續地追加投資，以支持OpenAI在微軟的“體外”，多年如一日地訓練GPT模型。微軟通過投資OpenAI獲得的股權享有整合ChatGPT模型能力進入其Office和搜索引擎的優先權，它未來會不會喫掉OpenAI可能是一件不太好說的事，但至少市值近萬億美元，一年收入幾百億美元的微軟，是絕對不敢一开始就“大力出奇跡”，兀自憑一己之力訓練這個模型的。

其次，因爲人們對科技巨頭從事創新事業的容錯度很低，而對創業公司的錯誤和偏差較爲優容。Google爲了應對以ChatGPT的壓力，倉促推出了人機對話測試版Bard，被發現一些對話出現了基本的事實錯誤，於是被無限放大，市值一夜蒸發千億美元。事實上Google不是不清楚這一點，要不是被逼急了，它也不會這么冒失。Google在2021年公布的LaMDA模型，參數級別和信息搜索能力都明顯高於當時OpenAI訓練的GPT-3，但Google遲遲不敢公測其效果，就是因爲害怕它出現失誤，引發公衆的不信任和股價的下滑。

Google在乎的，OpenAI都不在乎。從ChatGPT發布的第一天起，它就公开地說自己沒有信息檢索能力，語料庫也只到2021年12月，更回答不了很多關於價值和道德判斷的問題，還經常犯事實錯誤。對ChatGPT的自我“擺爛”，測試者很寬容地接受了，對它在編程、文學創作、格式化寫作、尋醫問診等領域展現的信息關聯、情感表達、邏輯結構、思維連貫性一系列能力驚嘆不已，對它犯的錯誤輕輕帶過。

2019年3月，在GPT-2模型取得前所未有的成功後，成立了4年的OpenAI決定由一家非盈利的基金會轉變成爲一家商業公司。畢竟沒有任何一家基金會能受得了它的首席科學家年薪150萬美元，2019年5月，山姆·奧特曼（Sam Altman）出任OpenAI的CEO。接着，OpenAI獲得了微軟的10億美元投資。2020年5月，OpenAI推出的GPT-3模型，參數從GPT-2的15億陡升至1750億，形成了一個前所未有強大的自動學習系統。

可見，一家含着金湯匙出生、融得到巨資、有巨頭業務捆綁加持的人工智能初創公司，從事通用的人工智能自然語義模型建構與开發，不計成本投入模型訓練，是最理想的狀態。最強大的模型帶來的想象力和商業回報足以刺激微軟和其它的投資者。

那么，怎么這個邏輯在中國就跑不通了？中國曾經有沒有一個強大的通用自然語義人工智能模型，哪怕就是一個雛形？

要回答這個問題，不妨看看微軟首次投資OpenAI的時間：2019年7月。在微軟押注OpenAI的GPT模型之後4個月，也就是2019年11月，微軟負責必應搜索業務、同時也是微軟人工智能最高負責人的全球資深副總裁、中國香港籍計算機科學家沈向洋宣布離开工作了20余年的微軟。而沈向洋對微軟通用人工智能模型的最後一個貢獻，就是由微軟亞洲互聯網工程院在2014年主導研發的聊天機器人——小冰。

2020年7月，小冰從微軟獨立出來，成爲一家中國的人工智能創業公司，沈向洋出任董事長，原微軟亞洲互聯網工程院常務副院長李笛出任CEO。小冰獨立之際已發展至第六代以上，產品形態涉及對話式人工智能機器人、智能語音助手、人工智能創造內容提供者和一系列垂直領域解決方案。小冰曾經引發公衆討論的，除了充滿情感和女性性徵的聊天機器人之外，還有它在漢語詩歌創作領域的驚豔表現——她出過一本詩集《陽光失了玻璃窗》，收獲了不少好評，以及更多的爭議。

毫無疑問，一個能寫詩，進行簡單情感和基於常識的對話的小冰機器人，是幾年前全世界範圍表現上乘的對話式通用人工智能模型。

沈向洋主導的團隊不可能不懂搜索，更不可能不懂人工智能。而沈向洋從微軟出走和小冰的“獨立”，加之微軟CEO納德拉主導的對OpenAI的投資和合作綁定，其實是中美最頂級的人工智能操盤手，在通用人工智能模型領域的一次正式的分道揚鑣。

那么，今天的小冰，還寫詩么？它在做什么？

這兩年，小冰早就不寫詩了。它在忙着商業化。它成立了遊戲工作室，爲遊戲提供NPC腳本對話內容；它與冬奧會合作，提供自由式滑雪空中技巧視覺評分系統；它爲萬得資訊提供人工智能生成的上市公司公告文本摘要；它給萬科等企業定制了客服專用的虛擬數字人......它在努力地成爲一家“賦能”各行各業，同時讓自己能造血賺錢的人工智能解決方案公司。

一句話，昔日代表了通用自然語義人工智能模型較高水准、中國人撐起全部格局的人工智能團隊，現在成了一個生成式人工智能與決策型人工智能混合的、爲具體的場景提供具體解決方案的人工智能供應商。

你不能說這是小冰的“墮落”，畢竟它只從資本市場融資了數億元人民幣。按照ChatGPT的模型訓練方法，這些錢一天就花完了。沒了微軟的護身庇佑，小冰得自己顧自己的命。可是，我也從來沒聽說過百度、騰訊或者字節跳動，想過要投資小冰，支持它繼續搞通用自然語義人工智能的大模型。

不僅僅是小冰。過去幾年中國也有其它從事通用人工智能自動建模和異構計算，讓國內外7-8種芯片通過該模型接入軟件的創業團隊，但只要是拿這個模型出來融資，就搞不定任何的一個投資人。中國的投資機構從未表現過對通用人工智能模型的興趣，和哪怕一點點的想象力。

“超過85%的投資人一上來就要求我們介紹產品的場景，我們說我們幫GPU對接軟件生態，連英偉達都用我們的模型，投資人說這個不算場景。我們說我們也有客戶，衛星、碼頭、智慧城市和智慧工業的研究，他們說你幹得太散了，我們不投”。這是我自己聽到過的做通用人工智能模型的創業者對我的吐槽。

衆所周知，中國的VC是最喜歡“教育”創業者的，當然也少不了教育從事人工智能創業的科學家。“你得在這個行業有點數據”，這是他們最愛教育AI創業者的一句話。

在某一個行業有數據，而且要專注在某一個細分領域提供解決方案，這是中國大多數號稱投資人工智能的VC和PE們的思維定式。然後看的就是“場景有多大”，安防攝像頭的場景足夠大，於是估值模型就變成了中國這么大，能安多少個攝像頭？每個攝像頭多少錢？總的攝像頭盤子有多大？好，盤子足夠大，攝像頭這個細分領域我們投了。再看看港口智慧物流，中國有多少個港口？有多少個是深水港口？每個港口碼頭能爲AI解決方案付多少錢？原來就付這么點兒錢啊，看來“港口”這個場景不夠大，那我們不投。AI虛擬數字人做客服？能跟元宇宙掛上啊，那有故事有想象力，好，我們可以投投試試。

所以，你看到的情況就是，中國的人工智能“四小龍”基本都在做攝像頭和人臉識別的生意，都變成了AI的項目實施和集成商，商業模式一如30年前的東軟和軟通動力，自己活得舉步維艱，巨額虧損，還得撐着中國人工智能產業的排面，撐着人工智能這一領域的估值和想象力。

在相當長的一段時間內，幾乎沒有哪個人工智能領域的投資人發自內心地相信一個通用的模型能在各個行業復用。其中偶爾有幾個對通用模型有點耐心和興趣的，基本都是人民幣基金，美元基金對中國團隊搞通用模型的嘗試真的是興趣闕如。你以爲是他們通過對比OpenAI和Google這樣的公司的模型訓練難度和水平，從而覺得中國團隊做起這個事來有差距？那你還真是想多了。他們知道GPT模型研發是怎么回事的時間，也就是最近這倆月的事。

那些大言不慚“在我眼裏商湯和曠視就是賣安防攝像頭的”的一线投資經理，那些傲然地跟創業者說“你這個模型又不是場景”的一线投資合夥人，更遑論那些歷史上幾乎不投人工智能，過去這么多年一直在鼓搗中國創業者“出海”搞加密貨幣的美元投資基金的合夥人，今天都突然搖身一變，宣稱要支持創業者搞“中國的ChatGPT”了。那么你倒可以想想，他們的信誓旦旦和躊躇滿志，含有幾分對通用人工智能模型的理解和真誠，又有幾分是投機和算計。

你更可以想想，一個超級自然語義模型的訓練可能一天就得燒幾千萬甚至上億人民幣，更何況現在提供大模型訓練的算力模塊——世界頂級的GPU，因爲美國的無理禁運而變得越來越難以獲取。以那些投資人過去這么多年的心性和行事風格，他們又能堅持得了幾天，肯說服投委會投多少筆錢進去，還是能幫這些創業團隊搞定GPU的問題？不定哪天，弄不好也就半年之後，他們就又开始催着這些做通用模型的團隊，盡快“在細分領域實現商業化”。

以百度對飛槳PaddlePaddle模型投入的堅持，尚且不可避免它從一开始就將這個模型產業實踐化，盡快追求在不同行業的商業化。而在很大程度上，通用人工智能大模型的訓練，存在着海量數據、高質量有創造力的內容輸出和產業應用落地的“不可能之三角”。

能實現海量數據和高質量有創造力的內容輸出，就勢必不能快速應用於某一個產業的具體落地——比如ChatGPT。

要想在人類創造的互聯網最大範圍的海量數據裏創造具體的產業落地場景，就一定無法提供最高質量的結果，因爲基於海量數據的內容生成與精准決策系統一定存在衝突——這其實是個廢物。

如果想實現高質量的內容輸出，以輔助精准的產業落地場景決策，就一定得犧牲最海量的數據，而以大多數精准的產業場景所擁有的數據，是無法支撐真正的大型模型訓練和研究的——這是中國絕大多數“產業細分”人工智能解決方案今天面臨的困境，也是所謂“產業ChatGPT”是個換湯不換藥的僞命題的原因。

那些今天摩拳擦掌要大舉殺入“中國的ChatGPT”的創業者和投資人們，且不說你們兜裏有幾個錢和幾塊GPU，既然都上了這艘船，都覺得自己攥着船票，那通用人工智能的“不可能之三角”，你們決定舍掉哪一個角？這是個首先得想清楚的問題。

換而言之，哪個投資機構——無論是財務投資機構還是大公司的投資部門，有持之以恆數年如一日投入訓練自然語義大模型，無限拉長回報周期的定力？畢竟歷史告訴我們，這是一群最沒有定力，最着急找接盤俠的人。

中國從來就不缺優秀的創業者和科學家，在人工智能領域同樣不例外。中國和美國科技公司在人工智能領域的水平和積累是全球範圍內最接近的，至少幾年之前中國和美國在自然語義大模型的建構和訓練上的差距也並不大。但是中國確實缺一些視野更开闊、不人雲亦雲、有定力有遠見的投資機構和投資人。

沈向洋、李笛、馬維英、王小川和李志飛等這些人，他們出來做通用自然語義大模型的創業項目都挺靠譜，但問題是得換一批背後支持他們的投資機構和投資人，有一些太擅長“做局”和投機，在加密貨幣等賽道上浸淫太深的投資機構混雜在其中，是應該被拉進黑名單的。

說句實話，盡管過去這么多年都沒什么正經的投資機構在看通用人工智能模型，可畢竟還是有一些機構也投了不少回報周期極長的人工智能公司。比如那些投資了中國本土激光雷達和自動駕駛解決方案的VC，他們是對樹立中國在全球汽車產業百年未有之變局中全新的競爭力做出過貢獻的。還比如那些投資了中國本土GPU的VC——這注定是一個充滿艱險，面臨美國封禁和打壓，回報周期極其漫長的賽道；但這些本土新崛起的GPU玩家——無論是瀚博、壁仞還是其它，它們未來是可能爲中國的通用自然語義處理模型提供彈藥的。它們背後的投資人，如果有一天真的謀定思動，出手加持中國的自然語義大模型項目的話，我對他們可能有一些更不一樣的預期和信心。

只是這樣不咋咋呼呼、不拖後腿、不急功近利的投資人和投資機構，不是太多，而是太少，但中國的自然語義模型建構和訓練需要這樣的投資人和投資機構——無論它是財務投資者，還是战略投資方，或是有國家意志加持的資本機構。

中國要有自己的通用自然語義大模型，它需要有爲全球通用人工智能提供中國智慧、中國價值體系和中國方案的愿景，需要從語料庫選擇、模型建構與訓練、參數調整的全過程前置規避風險和法律、道德與倫理問題，更需要的是定力和耐心。