ChatGPT時代，AI的未來是誰的天下？

▲ boxi用midjourney繪製

AI 的世界大致可分為 3 個領域（當然了，這是一種過於簡化的說法）：

大型語言模型。這些屬於通用模型，如 GPT-4 或 Chinchilla，LLM 會攝取 web（或其他文本/語言來源）的內容，然後轉換成可以做任何事情（比如生成法律文件摘要，使用搜尋引擎，或作為友好的聊天機器人）的模型。

圖像生成，包括 Midjourney、Dall -E 或 Stable Diffusion 等模型以及當前一些易用的影片製作工具以及 NeRF 等 3D 模型。這些模型可讓使用者輸入提示來產生圖像。

其他（這一類包括的技術和市場範疇非常大，確實不應該硬湊在一起）。其中包括了機器人技術、自動駕駛汽車、蛋白質折疊等眾多其他應用領域。我這裡出於簡化需要把它們統統歸為一類顯然是很愚蠢的做法。顯然，AlphaFold 2 與自動駕駛汽車的模型架構和終端市場都不一樣。不過，因為相對於一本書而言，這是一篇篇幅不長的文章，所以請多多包涵。就本文而言，我會暫時忽略放在其他框的內容。

當大家在談起「生成式人工智慧」時，往往會將這些領域混為一談。實際上，每個市場都有不同的底層 AI 模型架構、運算、擴展需求、品質標準以及應用領域。重要的是將它們分開以嘗試推斷它們可能帶來的未來。

相關文章： ChatGPT怎麼用？瞭解工作中這7種用法，在擔心工作被取代之前不如先學好怎麼用它

A. 圖像生成與 LLM：在成本、品質、規模、細分領域方面都截然不同

領域	圖像生成	LLM
做出尖端模型的成本	數十萬至數百萬美元	數千萬至數億美元，後續甚至達到十億美元的量級
對輸出的品質要求	可接受的「答案」的範圍更廣，對圖像輸出的品質要求很高	很多應用對精確度要求很高
近期應用領域	龐大	龐大＋＋＋
遠期應用領域	龐大+（如果把影片納入進來的話）	龐大＋＋
防禦性與護城河	可能可以透過合作關係、品牌、UI互動建立	可能可以透過規模、準確性、全面性確立
開源	開源、閉源混合，開源也許是建立在閉源的基礎上	閉源可能會領先與開源，至少在短期內，因為模型保真度增加也要相應擴充運算，加大投入；如果下一代模型的訓練需要數十億美元的成本的話，開源就要落後與閉源，除非有大財團支持。

▲圖像生成與LLM的差別

圖像生成可能會改變多個領域，包括：

社群產品和圖像（比如 Lensa 類產品的未來版，或這類產品與核心社群平台的整合）
圖形與視覺化設計
電影、漫畫、動漫、日本漫畫
影片遊戲
CAD
建築
電子商務方面
等等等等

當然，高性能影片（和語音）也可以開闢更多的應用領域。

圖像的社會變革應用範圍雖然很大，但在短期內與文本和語言的應用範疇總和相比要小得多。當然，這在未來可能會逐漸改觀——透過影片、語音等其他介面。現在大多數的 B2B 應用都是以語言為中心的（文本，以及小部分語音），而消費者應用則是混合型的（社群網路如 Twitter、Facebook、TikTok、YouTube，電子商務如 Amazon、Airbnb 等）。

雖然上面列出的圖像生成應用領域的機會都很大，但如果研究一下相應公司的市值與收入，圖像生成與語言生成的潛在應用相比就相形見絀了。語言是一切 B2B 互動、社群產品、商業及其他領域的核心部分。就經濟而言，LLM 在短期內的重要性可能要比圖像生成高好幾個數量級，而圖像生成也是非常重要的一個領域。

相關文章： 實戰ChatGPT全攻略：什麼是ChatGPT？ChatGPT怎麼用？

A.1 與 LLM 相比，圖像生成的建模成本更低

一般來說，已經取得巨大成功的圖像生成模型只需相當少量的資金和運算即可完成訓練。比方說，最新版的 Stable Diffusion 的訓練可能最多只用花數十萬到數百萬美元的 GPU 時間。

A.2 圖像生成品質：像素的交換與文字的交換不一樣

一般來說，圖像產生品質評估的主觀性要比語言生成更強。情人眼裡出西施，即便是不完美的圖像生成的輸出也可能很有用。換掉兩個像素對圖像的價值可能不會產生太大影響，但換掉兩個單詞就可以顯著改變段落的含義。

A.3 圖像生成的潛在市場結構

圖像生成模型的未來發展路徑似乎更容易預測——除了通用閉源模型工具（Midjourney 、 Dall -E）以及特定領域的閉源模型（「Graphic Design AI startup co」）外，我們很可能還會看到專有閉源模型（製作迪士尼圖像的「迪士尼模型」）與開源模型（Stable Diffusion 等）的混合。這些模型的訓練成本可能相當低（數十萬到數千萬美元），而且很大程度上會靠 IP 或特定用例實現差異化（比方說「漫威漫畫資料集」 Vs 「專業照片設計工具」）。可以想見，這些模型的子集將來可放在手機或其他設備本地運行，而不是僅在雲端運行——進而讓應用領域進一步擴大。

圖像生成的差異化最終會靠專有資料以及訓練方法實現，但短期內差異化可能是靠資本/運算以及資料的原始規模實現。大多數圖像生成方法都基於擴散模型，有些人正在探索向 transformers 或混合模型過渡。其他模型也可能影響到這些模型的方法或經濟性，進而影響行業的發展。不過，在短期內，未來幾年圖像生成可能世界的不確定性較小。隨著時間的推移，開源很可能會繼續對該領域的產品發展發揮關鍵作用。

這意味著更大的不確定性領域是——LLM 的可能路徑是什麼？

相關文章： 打造ChatGPT有多燒錢？享受AI自由的同時，付出的代價是普通搜尋引擎的10倍之多

B. LLM 與基礎模型

語言包括以下應用：

搜尋
大多數 B2B 互動、銷售、ERP、檔案使用與管理、電子郵件等
程式碼、資料互動、程式碼生成、SQL、excel 等。
金融
大部分的社群與消費產品
聊天、簡訊及其他應用
「一切的副駕」——所有上班族工作（法律、會計、醫學等）

這些領域當中有哪些領域需要大型語言模型？哪些領域需要較小規模的小眾語言模型？這仍然是個懸而未決的問題。迄今為止，LLM 似乎在某些領域（但並非所有領域）優於小眾模型。

大型語言模型以及潛在的終端市場結構存在部分可能的路徑。市場結構非常重要，因為它決定了生態體系當中的經濟贏家和人才贏家（誰收割了所有的收入、人才、利潤、市值與創新）。

B1：潛在的 LLM 市場結構

潛在路徑包括：

1. 「台積電世界」—— 大規模贏家（隨著時間的推移概率降低）

台積電是全球最大的外包晶圓廠。其製程工藝精良，規模宏大，採用了全球最先進的半導體設備。其市值比任何其他晶圓廠都要大得多，而且它在內部擁有高度專業化的專業知識來實施。

以台積電作為模擬，就目前活躍的市場參與者來看，OpenAI 暫時處於領先地位，成為唯一的贏家。透過與微軟（或其他）的合作夥伴關係的規模與資本化，再加上在聚攏資料、人才、技術與運算方面明顯在加快速度，它目前的領先地位還會得到加強。

如果Google的新產品能設法將 OpenAI 攬入旗下的話，那麼它成為這個世界上唯一贏家的候選人的可能性是第二高的。Google似乎已經意識到了 OpenAI 與其他公司的競爭威脅。別的初創企業，如 Anthropic、Character 等，或試圖開發 AGI（通用人工智慧）的初創公司，總能給 AI 未來的最終贏家之戰帶來一些未知因素。

「台積電世界」大致是個壟斷市場，一家獨大。隨著這一市場競爭的升溫，這種可能性似乎越來越小。

2. 雲端服務提供者世界——寡頭壟斷市場（最有可能的世界）

雲端運算之戰已經結束，以 AWS、Azure 以及 GCP 成為僅存的三家大規模、競爭激烈的對手而告終。這是一個沒有單一贏家的寡頭壟斷市場。根據我們目前對這個世界的瞭解，這似乎是基礎語言模型近期最有可能的市場結構，但市場發展現在還處在早期階段，未來還不確定。

LLM 的寡頭壟斷市場會是 OpenAI 、Google以及其他 1-2 家公司的天下——如果最終它們在 AI API 以及服務領域都擁有強大的市場占有率的話。跟我交談過的很多使用 LLM 平台的客戶都想要 OpenAI 以外的第二個源模型，不管是為了擁有更大的議價能力，還是想體驗更多的資料隱私，這都會為另一個競爭對手提供空間。比方說，有人可能會提出 Juniper 之所以存在是因為企業可以擁有思科以外的第二來源。

之所以認為近期會出現寡頭壟斷市場，而不是碎片化的市場，是因為後續每一個性能更好的 LLM 模型所需的資本/運算/資料規模成本目前已有據可循。如果 GPT-3 當時的訓練成本是幾百萬到千萬美元左右的話，從零開始訓練的 GPT-4 成本可能估計在幾千萬美元到一個億美元之間，也許 GPT-5 是幾億美元，GPT- N 是十億美元。當然，這是在假設成本的增長速度快於技術突破或 GPU 下降速度（或專用硬體成本下降）的前提下，這些假設也有可能是錯的。

然而，一般來說，「規模」已被證明對很多的深度學習方法都很重要，演算法方法一般會大規模地重新應用。

如果規模越來越大的模型對資本的需求也會持續擴大，就會產生一些潛在影響：

在一段時間內，基金會模式公司會擁有一道強大的護城河，把新進入者擋在門外（或迫使每一家初創公司都要找到財力雄厚的「戰略」支持者）。比方說，如果訓練每一代新模型的成本最終都要在 5 億美元以上的話，那就沒幾家公司能夠負擔得起競爭的代價。
單一架構基礎模型的最終能力應該會逐漸逼近漸近線，到最後各個模型/規模的競爭優勢都會消失。這可能需要一些時間，而且在極端情況下是逼近漸近線與 AGI 的競賽，以及可能會無限期加速進步的進一步技術突破。摩爾的「定律」與其說是一條實際定律，不如說是一項觀察，其持續時間比任何人最初預期的都要長。
對舊版本模型進行重新訓練得到的等價物可能會更便宜，這意味著碎片化和/或開源會落後一代。比方說，假設訓練 GPT N 的成本為 10 億美元，則訓練 GPT N-1 等價物的價格可能是前者的 1/10，訓練 GPT N-2 等價物的價格可能只有 1/100。這樣一來，任何利用早期版本模型的應用就不再需要靠主要平台的 API 才能用，而是可以恢復成開源或其他的模型。

相關文章： OpenAI 正式推出 GPT-4 大型語言模型，ChatGPT 更聰明了！在諸多測試中表現比人類都好

類似半導體的行為——尖端技術 vs 落後兩代

從短期來看，LLM 很可能類似於 1990 年代與 2000 年代的微處理器行業。在那個時代，Intel的技術優勢明顯，始終比 AMD 等競爭對手領先 2-3 年。這意味著用Intel晶片可以給 PC 性能帶來明顯優勢。

每一款 Intel CPU 的設計以及晶圓廠（在約 18 個月的反覆運算時間窗口內——聽起來很熟悉？對，就是摩爾定律）的建造成本都要比上一代高很多。這一點，再加上聰明的銷售與行銷交易，強化了Intel在市場的護城河。這條護城河從 1980 年代一直持續到最近都很牢固。

▲ 晶圓廠的建廠成本節節攀升

▲ 晶片越小，設計與建造成本越高

人人都垂涎性能始終優於上一代的最新Intel CPU 。這意味著最尖端的應用需要最新的微處理器。但是，舊晶片以 1/10 或 1/100 的價格找到了許多應用。

同樣，落後一兩代的 LLM 訓練成本可能非常低（比方說，如果今天再從頭開始訓練 GPT-2的話）。前幾代模型可能預設就是開源或碎片化的。我們最終可能會看到這樣一個世界：GPT N（或同等產品）站在尖端，讓關鍵應用具備明顯的差異化，而 GPT N-1 或 N-2 價格低廉，可廣泛用於對保真度要求較低或模型「夠用就好」的應用。

如果假設基礎模型每個後續模型的訓練成本會繼續攀升的話，那麼未來 2-3 年也許是初創公司進入這個市場的最後機會了——在沒有微軟、Google、Facebook、蘋果或亞馬遜等財力雄厚的「戰略」支持者資金支援的情況下。

在那之後，從收入和技術進步的角度來看，初創企業需要突破逃逸速度才能獲勝。不過，也可能有一些有趣的技術突破可能會影響這一點——比方說，如果初創企業發明了 AGI ，或可以透過寫自己的程式碼，並且實現比人類更快的訓練速度來自力更生的話。

相關文章： ChatGPT歷史溯源：從1950年代講起，談聊天機器人的前世今生

以雲端運算的時機為例

儘管擁有開發雲平台的基礎設施，但Google花了 2 年時間才推出第一款 GCP 服務，然後再用了幾年的時間，GCP 才成為一個更完整的解決方案。同樣地，Azure 在 AWS 的第一塊服務推出 4 年後才推出。大公司通常需要幾年時間才能對威脅做出反應並採取行動。對於Google和 AWS 等雲端運算平台提供商來說，要想具備競爭力，LLM 將是它們需要應對的類似東西。

代理人戰爭——阿里巴巴/騰訊模式

有時，公司可能會透過長臂管制代理進行競爭。比方說，中國的阿里巴巴和騰訊經常投資/收購一大筆所有權，然後分銷競爭性產品。同樣地，IBM 曾經資助 Linux 來對抗微軟，作為瀏覽器代理戰爭的一種形式；Google、蘋果和 Mozilla 也都支援過 webkit 的不同分支。就 AI 而言，之所以要保持一定距離的關係，可能有公關和安全方面的原因，間接子公司或代理人的靈活性更高、更自由的原因，或者出於金融激勵或其他的原因。

未來世界的可能版本之一也許是 OpenAI /MSFT 對抗 Anthropic/Google 、Stability/亞馬遜以及Cohere/Meta（都是一大一小的搭配！！！！）。換句話說，每一位元既有者都會選擇一個創業合作夥伴來承擔品牌與安全風險，同時買下該創業公司的一大筆所有權。作為交換，初創公司可獲得既有者的資料、分銷管道以及其他資源。從某種程度來說，這會導致與（2）大致相同的市場結構。

3. 小眾模型很重要，要麼會出現開源的主要支持者。

這個世界的另一個版本是，對於大多數應用（或至少是最重要的應用）來說，最終小眾模型的性能與大型模型的性能將大致相同或更好。在這個世界裡，一個針對性極強的強大資料集與一個大型基礎模型一樣有效，這意味著進入壁壘在運算與資料標記/清理方面會花費數十萬到數百萬美元，進而大大降低市場的進入門檻。早期的資料點表明，在接下來的一年時間裡，用小眾資料集（比方說 Codex 與 Github copilot）增強的 LLM 往往優於小眾模型，但從現在起再反覆運算幾代的話，這個結論也許就不會成立了。在未來 1-2 年內不太可能會發生小眾模型的性能與大型模型性能相當這種情況，但在未來這種情況可能會變得至關重要。在這種情況下，AI 會碎片化，大型模型在某些領域的重要性會下降。

相應地，可能會出現一位龐大的開源資助者，去建立「開放模型替代方案」。也許海灣國家會創建「石油人工智慧基金」，或者某家資金雄厚的公司認為開源基礎模型對自己的市場結構很重要（類似於 1990 年代的時候，為了抵消微軟和其他公司的影響，IBM 成為了 Linux 的主要支持者）。如果最終有足夠的資金資助開源替代方案，那麼市場和這個世界會更加碎片化。

4. 品牌、分銷、產品影響很大。

另一種觀點認為，模型會迅速商品化，但品牌、分銷以及產品的地位依舊或者變得更加重要。比方說，Bing 從很多方面來說跟Google搜尋大致相當，但Google透過購買付費分銷 + 品牌來維持其市場地位。在這個世界的未來版本裡，最終會出現 2-3 個由大公司（比方說 OpenAI + MSFT、Google以及其他公司——比方說亞馬遜或 Facebook + Anthropic）提供的核心 API 平台，然後會有一堆開源或定制模型聯合起來涵蓋眾多用例。

B2：開源（OS） vs 封閉：

靠雄厚資金支持跟上還是始終落後 1-2 代（1-3 年）？

大多數成功的開源專案（ webkit 、 linux等）最終都能獲得大型企業的資助與開發支持。比方說，Linux 在 1990 年代得到了 IBM 的大量資助，進而在伺服器端軟體方面與微軟可以抗衡。加密貨幣（BTC 和 ETH）是明顯的 OS 反例，儘管有人可能會提出異議，直接內建到這些加密貨幣協議的貨幣化機制等同於那幫人在自籌資金。從某種意義上說，加密貨幣就是它自己的企業贊助商。

OS LLM 的潛在支持者可能包括政府（比方說 Bloom 部分是由法國資助的）、主權財富（海灣的「石油換 AI」貿易）、沒有參與其中但可能因更多 LLM 的使用而受益的大公司（NVIDIA？亞馬遜？）、或某項重大的慈善事業。

如上所述，運算規模對於尖端 LLM 模型來說確實很重要。這表明在中期，除非 OS LLM 出現大規模的支持者，否則由於訓練的成本高昂，OS LLM 可能最終要比閉源的模型落後一兩代（1-2 年？）。

落後 1 代的模型對於各種開發者和應用已經非常有用，但是用於最先進用途的最尖端、最高保真的模型可能會保持閉源狀態。比方說，一旦出現了 GPT-7 時，如果其訓練成本為 5 億美元的話，那麼開源的基礎模型可能會達到 GPT-6 或 GPT-5 等價物的水準。這對很多應用來說也許很重要，也許不重要，關鍵要看處在 S 曲線的什麼位置，開源模型也許是某些應用的絕佳選擇。

▲ 運算的規模、成本隨時間變化情況

相關文章：Google內部評測ChatGPT竟能通過Google的3級工程師測試，年薪破五百萬元

從開源轉向到閉源模型也可能體現在 AI/ML（人工智慧/機器學習）研究來自學術界與工業界的占有率占比變化上。越來越多的工業實驗室表示，隨著市場競爭的加劇，他們將不再把結果儘量公佈出去，開源軟體與學術界掌握該領域進展的機會也將減少。

▲ 學術界越來越研究不起大規模AI

從長遠來看，S 曲線的性能可能會達到飽和（除非出現真正的 AGI ），這意味著如果沒有重大支持者的資助，開源軟體仍將迎頭趕上，並可能最終超越閉源。

B3：擴展的瓶頸與辦法？

一個靠資本充當護城河的世界也是一個絕對規模（運算、資料和其他因素）關係重大的世界。建立在金錢基礎上的護城河只存在於投入擴張的速度總是大於行業成本上升速度的世界裡。圖像生成就是一個很好的反例，現如今金錢和 GPU 規模並不能阻止新人進入或創新。至於 LLM，隨著時間的推移可能會影響模型的成本和擴展的因素有：

資料可用性及規模。到了一定時候，web 作為資料來源將會耗盡。影片（YouTube、 Vimeo 、 TikTok等）、語音（呼叫中心日誌）、程式碼儲存庫、所有已出版的書籍以及其他的資料來源到了一定時候可能就會耗盡，或本身就是專有的。不妨想像這樣一個未來世界，在這個世界裡，有人原因花錢讓大家記錄自己的生活，然後被動地將其捕捉到模型之中。隨著時間的推移，合成資料會變得越來越重要，而且已經成為自動駕駛汽車及其他 ML 驅動領域的關鍵組成部分。它對 LLM 的重要性也可能會提高。
人類回饋與訓練。對於減少對特定源自人類的任務的提示工程 + 訓練模型需求來說，RLHF（利用人類回饋的強化學習）是核心組成部分。特定領域的擴展最終可能會是一件相當資本密集型的任務，並最終從基於人的回饋變成以機器的回饋為基礎。
微調與訓練。適當微調後，小型模型的性能可能會優於大型模型。
半導體層。在晶片級仍有大量優化工作要做——早期的 TPU 就是說明該行業可以從日益定制化的 ASIC 中獲益多少的突出例子。與此同時，不斷研究GPU 或 TPU的使用技巧，以便從現有硬體榨取出額外性能仍有一定的發展空間。
系統優化。 LLM 的系統及基礎設施方面仍有很大的優化空間。同樣地，也在探索按複雜性或資訊內容對文字進行差異化的加權。
推理與訓練。當一個人遇到問題時，往往會在採取行動之前停頓幾秒鐘或花幾分鐘進行思考。同樣地，雖然現在非常重視訓練，但在推理時應用更多的方法（及運算）可能也會有所幫助
新的架構。就像 transformer 對之前的卷積模型產生的影響一樣，新的突破性架構可以讓 AI 領域出現新的飛躍。也許部分 AI 方法的價值只有在規模化時才會顯現，只是現在探索起來成本太高。
Transformer以外的其他演算法/模型。人腦有用於特定功能的專門模組。增量或專用類型的模型也許可以優化整個 LLM 系統和輸出。

總的來說，雖然有很多相對獨立的方法可以擴大規模，而不僅僅是依靠資本，但就中期來看，哪怕你採取了其中的很多方法，規模仍將會為 LLM 帶來優勢。

B4：基於規模的價值什麼時候會逼近天花板？

很多技術最終都會逼近一條漸近線，往往呈現為 S 曲線（S 型函數）的形式。有時候，這條曲線會受到底層物理因素的驅動——比方說，晶片電晶體的線寬最終會遭遇原子極限——而這反過來最終會限制某些半導體技術的發展水準。有個問題現在還是未解之謎，也就是大概到什麼時候擴大運算能力會讓現有資料集和 AI 架構達到飽和。如果 AI 迅速擴展到 S 曲線的頂部，市場也將迅速碎片化，湧現出更多的參與者以及更多的開源（因為成本會逐漸下降，但模型性能不會有太大的提升）。相反，如果逼近這條漸近線的時間跨度很長的話，則基於上述的潛在結果，整個行業結構可能會維持相對靜態，因而發展也更為受限。

▲ 創新的 S 曲線 - 情景演化

B5：價值集中在平台側還是應用側？

在某些世界裡，隨著平台前向整合到少數在該平台上表現最佳的應用上，大部分應用價值都會聚攏到平台上。比方說，眾所周知，微軟把 MS Office 的所有競爭對手全都收購或者幹掉了。相比之下，AWS、Azure 和 GCP 都是大業務——但幾乎所有的 SaaS 、ToB與ToC型公司都能從這些平台受益，因為這些平台並沒有向前整合，所以它們能積攢自己的價值。總的來說，目前技術領域品質最高、規模最大的企業（蘋果、亞馬遜、Google、微軟）佔據了設備平台（iOS 、webkit、MS OS、Android）以及雲平台（Azure、AWS、GCP）。不過，眾多其他的平台或 API 業務（Stripe、 Adyen 、 Twilio等）、資料基礎設施（Snowflake、 Databricks、 dbt）以及應用（Meta、 Salesforce 等）也能在這個世界欣欣向榮。

平台 Vs 應用之爭最可能的答案是「兼而有之」。一些平台會向前整合到已經很突出的應用（ChatGpt？），而大多數應用將是獨立的，並且能夠創造出自己的巨大價值。不過，其他一些應用會使用定制的小眾模型以及專有資料來實現差異化。

以上都有可能是錯的

在 AI 世界裡，情況的變化速度是驚人的。技術或性能的突破可能會顛覆上面所寫的一切。我們也仍然不知道各大科技公司會如何反應。因此，唯一真正可以確定的是，我們正生活在一個激動人心的時刻，技術正經歷一次斷裂。這實在是太令人興奮了！

相關文章：如何在 LINE 使用 ChatGPT AI 聊天功能？