8 名Google員工發明了現代人工智慧，這是那篇論文的內幕故事

前人種樹，後人摘果。在科技圈，科技巨頭做出創新技術但成果卻被初創企業竊取的情況屢見不鮮。最近的例子之一便是Google與OpenAI。最近對科技圈產生最深遠影響的論文《Attention Is All You Need》就是Google的人發表的，但最終引爆市場的卻是OpenAI。那篇論文的所有8位作者後來均離開了Google，本文介紹了這篇論文的誕生故事，並介紹了他們的最新動向。也許裡面最值得深思的，是如何打造創新的土壤。我們如何才能打造出那樣的土壤呢？

已成傳奇

2017 年春發表的科學論文《你所需要的只是注意力》（Attention Is All You Need）共有八位作者，他們都來自Google，不過當時其中一人已經離開了公司。當其中最資深的作者諾阿·薩澤爾（NOAM SHAZEER）看到初稿時，他意外地發現自己的名字位列所有作者之首，這似乎表明他所做的貢獻最為顯著。他說：「我可不是這麼想的」。

作者名單如何排序從來都是件需要精心權衡的事情：誰應該獨享第一作者的美譽？誰又該不幸的被排在倒數第一？當每位參與者在真正意義上的團隊合作都做出了顯著貢獻時就更難權衡了。研究者們在完成論文的緊張過程中，最後採取了一種「顛覆性」的做法來打破常規的作者排名。他們為每個名字後面都標注了一個星號，並在註腳明確指出：「各人的貢獻均等」，「作者排序按隨機排列」。此舉無疑給學界慣例帶來挑戰。在截止日期前夕，他們將論文提交給一個聲譽卓著的人工智慧會議——並進而在該領域掀起了一場革命。

在論文發表臨近七周年之際，《注意力就是你的全部所需》已成為傳奇。作者們的出發點是一項日趨成熟且不斷進步的技術——一種被稱為神經網路的人工智慧。他們把它發展成了一種全新的系統：這個系統是如此的強大，以至於它的輸出仿佛來源自非人類的智慧。這種被稱為 Transformer 的體系結構正是 ChatGPT、Dall-E 以及 Midjourney 等引人注目的 AI 產品背後的核心技術。Shazeer 如今調侃道，如果他當初知道這篇論文會那麼出名的話，他「可能會對作者排序更加介意」。但現在，所有的八名簽署作者都已經小有名氣。利昂·瓊斯（Llion Jones）的名字（當然是隨機的）恰好排在第五位，他說：「就因為我的名字出現在了一篇論文上，有人就找我合影了！」。

傑佛瑞·辛頓 (Geoffrey Hinton)雖不是論文的作者之一，但也許確實全球最卓越的人工智慧科學家。他說：「要不是因為有了transformers，我覺得我們走不到今天這一步。」他指的是隨著OpenAI等公司開發出能與人類產出相媲美，甚至在某些情況下超越人類產出的系統，我們已經進入到一個地動山移的時代。

現如今，所有這八位作者都已離開Google。跟成千上萬人一樣，他們目前正以各種方式參與到由他們在 2017 年所創造的系統推動的工作當中。我採訪了這八位 Transformer 的發明者，希望能揭示一項顛覆性成果——一次凝聚人類智慧的努力，創造出一台有可能最終主導話語權的先進機器——的內在結構。

延伸閱讀：就是要你全部的注意力！ChatGPT不小心找到一個有史以來最賺錢的商業模式

誕生故事

Transformers的故事要從這八個名字的第四個開始：雅各·烏斯克爾特（Jakob Uszkoreit）。

雅各·烏斯克爾特是著名的電腦語言學家漢斯·烏斯克爾特（Hans Uszkoreit）的兒子。 20 世紀 60 年代末，還是高中生的漢斯因抗議蘇聯入侵捷克斯洛伐克而在自己的祖國東德被監禁了 15 個月。獲釋後，他逃往西德，並開始在柏林學習電腦和語言學。雅各出生那年，他去了美國，到加州門洛公園的一家研究機構 SRI 的人工智慧實驗室工作。後來他們家又重新回到德國，雅各也在那裡上了大學。他起初並沒計畫要專攻語言學，但當他開始研究生學業時，他拿到了到Google山景城總部的實習機會，並加入了公司的翻譯小組，看來他最終還是投入到家族事業之中了。他後來放棄了攻讀博士的計畫，2012年，他決定加入Google的一支團隊。當時該團隊正在打造一個不需要將使用者重定向到其他網站，可以直接在搜尋介面回答使用者問題的系統。那時候Apple剛剛推出了 Siri，一個在日常交談當中提供即時答案的虛擬助手，這讓Google的管理層感受到巨大的競爭壓力：因為Siri 有可能會衝擊到他們的搜尋流量。因此，他們開始更加關注雅各·烏斯克爾特領導的這個新團隊。

烏斯克爾特表示：「那其實是場不必要的恐慌，」事實上 Siri 從未對Google構成過實質性的威脅。但他對此還是很高興，因為這是可以深入鑽研人機對話系統的機會。在當時，在學術上曾被認為一潭死水的循環神經網路（recurrent neural networks），其表現突然超越了其他的人工智慧工程方法，這種神經網路由多層組成，資訊可以在在這些層之間傳遞和反復傳遞，進而能辨識出最佳的回應。神經網路在圖像辨識等多個領域取得了巨大進展，人工智慧因此迎來了全面復興。Google開始瘋狂要求自己的員工採用這些新技術。他們希望能開發出能生成類似人類回應的系統，像是可以在郵件自動補全句子或做出相對簡單的客服聊天機器人。

但這一領域後來遇到了難題。循環神經網路在處理長文本時表現不佳。比方說，要想理解「Joe 是一名棒球選手，在享用了一頓豐盛的早餐之後，他在棒球場上打出兩支安打。」這句話裡面的「兩支安打」，語言模型就必須記住前面提到的棒球。換言之，模型必須維持注意力。對此業界公認的解決方案叫做「長短期記憶」（LSTM），這種革新技術讓語言模型能夠處理更長、更複雜的文本序列。但電腦還是嚴格按順序來處理這些序列——一個一個單詞地去處理，乏味至極——這種做法會錯過後續可能出現的上下文線索。烏斯克爾特表示：「我們採取的做法基本上只是臨時應急措施，並沒有找到可以真正規模化的處理手段。」

大概在 2014 年左右，他開始醞釀一種新的做法，他稱之為自注意力機制（self-attention）。這種網路可以引用段落文字的任何其他部分，借此來翻譯一個詞。這其他部分的內容可以明確某個詞想要表達的意思，進而說明系統生成準確的翻譯。他說：「其實這種機制已經考慮到所有因素，提供了一種能同時高效地審視眾多輸入資訊，並以相當有選擇性的方式提取資訊的方法」。雖然人工智慧科學家們都很小心，避免將神經網路的隱喻與生物大腦的實際工作方式混為一談，但烏斯克爾特依舊認為自注意力機制在一定程度上與人類處理語言的方式有相似之處。

烏斯克爾特相信，自注意力模型有望比循環神經網路快得多、也更有效。其處理資訊的方式與強大的並行處理晶片完全匹配，後者已經被大規模生產出來，用來支撐機器學習熱潮。與線性處理方法（按順序查看每個詞）不同，它採用了一種並行的處理方法（同時查看一批詞）。烏斯克爾特在想，如果處理得當的話，或許只用自注意力模型就能收穫更出色的結果。

並不是所有人都認同這個想法能震撼世界，其中也包括烏斯克爾特的父親在內。雅各在Google供職期間，漢斯·烏斯克爾特獲得了兩項Google學術研究獎。雅各·烏斯克爾特表示：「大家都對此感到吃驚，因為它拋棄了所有現有的神經網路架構。」跟循環神經網路說再見？簡直是異端！「從我跟父親吃飯時的對話情況來看，我們的觀點並不完全一致。」

烏斯克爾特說服了幾位同事對自注意力模型進行實驗。他們的工作成果展現了希望，2016 年還發表了一篇論文。烏斯克爾特想推動他們進一步研究——因為該團隊只用了非常少量的文本段落進行試驗——但沒有一位合作者對此感興趣。他們就像是只想小賭一把的賭客，拿得到一點獎金就離場了。烏斯克爾特說「這東西確實管用。那篇文章的合作者對於將自己的研究成果運用到Google的不同地方，包括搜尋引擎，最終還有廣告系統等感到十分興奮。從很多方面來看這都是一個了不起的成就，但我並不想就此打住。」

烏斯克爾特相信自注意力能勝任更大的任務。在Google園區北邊查爾斯頓路 1945 號樓（用位址命名）裡，他會向任何願意（以及不願意）傾聽的人講解他的設想，並在白板上勾勒出他的願景。

延伸閱讀：誰發表的AI研究最具影響力？Google遙遙領先，OpenAI成果轉化率完勝DeepMind

2016年的某一天，在Google的一個咖啡店裡，烏斯克爾特正在與一名來自烏克蘭的科學家共進午餐，此人名叫伊利亞·波洛蘇欽（Illia Polosukhin），已經在Google工作了近三年。波洛蘇欽被分配到的團隊負責解答在搜尋框裡直接提出來的問題。但他們的成果並不如預期。波洛蘇欽說：「要想在 Google.com 上提供答案，你得有一個成本低效果好的方案。因為必須在幾毫秒內做出回應。」當波洛蘇欽對此表達不滿時，烏斯克爾特毫不猶豫地給出了自己的解決方案。波洛蘇欽回憶道：「他提議說，為什麼不試試自注意力機制呢？」

波洛蘇欽有時候會跟另一位同事合作。阿希許·瓦斯瓦尼（Ashish Vaswani）在印度出生，在中東長大，曾就讀南加州大學（USC），並在該校頂級的機器翻譯小組獲得了博士學位。然後，他來到山景城，加入了Google——具體來說是去到Google新成立的Google Brain部門。在他眼裡，Google Brain是一個十分激進的組織，堅信「神經網路將推動人類認知的加深」。但他一直想找個值得投入進去的大項目。他的團隊在 1965 號樓工作，這棟建築正好位於波洛蘇欽的語言團隊所在的1945號樓旁邊，然後他聽說了自注意力機制的構想。這會是他想要的那種項目嗎？他同意參與進來。

三位研究人員共同起草了一份設計檔案，名字叫做「Transformers：反覆運算自我注意力機制記各種任務的處理」。烏斯克爾特說，他們從「零日」（day zero）中選中了「transformers」這個名字。其想法是，這種機制可以變換所接收的資訊，讓系統能夠析取出盡可能多的理解，或者至少給人以那種錯覺。再加上烏斯克爾特對小時候玩孩之寶動作人偶的美好時光仍歷歷在目：「我很小的時候曾經有過兩個變形金剛小玩具」。這份文件檔案甚至還用六個變形金剛在群山之間互射雷射光的卡通圖片作為結束。

論文開頭的那句話也有點招搖：「我們太棒了。」

2017年初，波洛蘇欽離開Google自主創業。此時，新的合作者也開始陸續加入該項目。印度工程師妮基·帕爾瑪（Niki Parmar）曾在印度為一家美國軟體公司工作，之後又移居到美國。2015年她在南加州大學（USC）獲得碩士學位後，各大科技巨頭均向她伸出了橄欖枝。她最後選擇了Google。開始工作後，她開始與烏斯克爾特合作，透過研發模型變體來增強Google搜尋功能。

另一位新成員是利昂·瓊斯（Llion Jones）。他在威爾士出生長大，熱愛電腦，「因為這東西不一樣。」在伯明罕大學，他修了一門人工智慧課程，對用歷史趣事呈現的神經網路產生了興趣。2009年7月，他拿到了碩士學位，但由於經濟不景氣難以找到工作，曾靠失業救濟維持了幾個月。之後他到一家本地公司找到了一份工作，然後用「孤注一擲」的心態去投了Google。他最終得到了這份工作，進入到Google Research，而他的經理正是波洛蘇欽。某一天，瓊斯從同事麥特·凱爾西（Mat Kelcey）那裡聽說了自注意力的概念，之後決定加入transformer團隊。（後來，瓊斯碰到凱爾西時提到了transformer項目，但凱爾西對此並不看好。現如今的凱爾西是這麼說的：「我跟他說，『我不確定這能不能行得通』，這基本上算是我這輩子錯得最離譜的預測了」。）

Transformer專案吸引了同樣致力於改進大語言模型的其它Google Brain團隊研究人員。這第三波的成員包括波蘭出生的理論電腦科學家盧卡希·凱撒（Łukasz Kaiser）以及他的實習生艾丹·葛麥斯（Aidan Gomez）。葛麥斯在加拿大安大略的一個小農莊長大，每年春天，他家都會採集楓木汁製作成糖漿。在多倫多大學上大三的時候，他就「深陷」在人工智慧的魅力而無法自拔，並且加入了到一個機器學習小組——傑佛瑞·辛頓（Geoffrey Hinton）的實驗室。他開始聯絡Google那些寫過有趣論文的人，提出對他們的研究進行擴展的想法。凱撒上鉤了，並向他發出來實習的邀約。直到數月之後，葛麥斯才發現這些實習機會本來是為博士生準備的，而不是像他這樣大學生。

凱撒和葛麥斯很快就意識到，對於他們正在處理的問題來說，自注意力機制似乎是一個有前途且更為徹底的解決方案。葛麥斯說：「我們進行了認真商討，確定要要不要合併這兩個專案」。答案是肯定的。

Transformer團隊開始著手構建一個自注意力模型，用於將文字從一種語言翻譯成另一種。他們利用了BLEU 基準測試來衡量該模型的表現。BLEU會透過對比機器輸出與人類翻譯者的工作來測試模型。他們的新模型從一開始就表現良好。烏斯克爾特表示：「我們從沒有概念證明走到至少有一個能與當時最好的 LSTM 方案匹敵的東西」。不過，跟長短期記憶（LSTM）相比，「它並沒有更好表現。」

直至 2017 年的某一天，諾姆·薩澤爾（Noam Shazeer）偶然聽說了他們的研究專案之後，他們的瓶頸才被打破。薩澤爾是一名經驗豐富的工程師，早在 2000 年就加入了Google，同時也是Google的一位傳奇人物，早年因在廣告系統的工作而獲得了廣泛認同。薩澤爾研究深度學習已有五年時間，最近對大語言模型產生了濃厚興趣。但現有的模型離流暢對話還差得很遠，他認為那種對話是可以實現的。

根據薩澤爾的回憶，當時他正在 1965 號樓的走廊行走，經過凱撒的工作區時，他聽到裡面正討論得熱火朝天。他記得阿希許談到了用自注意力機制的想法，而妮基則對此非常興奮。「我在想，哇，這似乎是個很棒的想法。看起來似乎是一群有趣的聰明人在做一件很有前途的事。」薩澤爾認為現有的循環神經網路「讓人很不爽」，於是他想：「為何不換掉它們呢！」

薩澤爾的加盟至關重要。烏斯克爾特表示：「這些理論性或直觀性的機制，比如自注意力機制，一直都要靠非常細緻的實現，甚至有時候只有少數經驗豐富的『魔法師』才能讓它呈現出一絲生機」。薩澤爾馬上開始施展他的魔法。Transformer團隊的程式碼他決定自己寫一版。他說：「我接受了他們的基本想法，然後自己實現了」。偶爾他會找凱撒尋求解答，但大部分時候他「都是自己折騰一番之後就『搞定了。』」透過其他團隊成員口中的「魔法」、「煉金術」和「花裡胡哨」的操作之後，他將這套系統提升到了一個新的水準。

葛麥斯說：「這拉開衝刺的序幕」。人人都鬥志昂揚，希望在即將到來的截止日期之前搞定——5月19日是論文提交的最後期限，如果獲得通過，這些論文將在人工智慧界一年一度的最大盛會（也就是12月舉辦的神經資訊處理系統大會，Neural Information Processing Systems）上發表。矽谷所謂的人工智慧寒冬已漸漸逝去，春天正慢慢走來，實驗的步伐也隨之加快。他們測試了兩種transformers模型：一個是經過12小時訓練得來的，另一個更加強大的版本被命名為 Big，經過了三天半的訓練，並被開始用來執行把英語翻譯成德語的任務。

這個基礎模型超越了所有對手——而 Big 拿到的BLEU評測分數碾壓了過去的記錄，同時計算效率也更高。帕馬說：「我們的用的時間比別人短。而這還僅僅是開始，因為資料還在不斷提高。」當烏斯克爾特聽到這個好消息時，他從自己山地探險車裡拿出了一瓶陳年香檳來慶祝。

截止日期前的最後兩周，大家都忙到發瘋。儘管有些團隊成員的官方座位還在 1945 號樓，但實際上他們大都在 1965 號樓辦公，因為那裡的義式咖啡機更好。葛麥斯說：「大家幾乎都沒怎麼睡覺」。作為實習生，他幾乎一直在緊張地進行著調試，同時還要為論文製作視覺化內容和圖表。在這樣的項目裡，做剔除實驗是司空見慣的事情——也就是拿走一部分，看看剩下的是不是足以完成任務。

葛麥斯說：「技巧或模組的各種可能組合我們都會嘗試，去找出哪些有用，哪些沒用。撤掉這個，然後用那個來替換。為什麼模型的機制是如此的有違直覺？原來是因為我們遮蓋（masking）得不對。現在能用了嗎？好的，那就繼續下一個。現在我們所謂的『Transformer』的所有要素，都是這種高速反覆運算、不斷試錯的結果。在薩澤爾所實現版本的支持下，這些剔除賦予了Transformer『極簡主義』的特色，就像瓊斯所說那樣，『諾姆就像一位魔法師』。」

瓦斯瓦尼回憶道，他在團隊寫論文的那個晚上，躺在辦公室的沙發上，凝視著隔開沙發與房間其他部分的窗簾，突然被窗簾布料上的圖案所吸引，那些圖案在他看來像極了突觸和神經元。葛麥斯也在場，瓦斯瓦尼告訴他，他們正在做的事情遠不止機器翻譯。他說：「最終，我們需要像人腦一樣，將語音、聲音、視覺等各種模式統一在一個架構之下。我有一種十分強烈的感覺，那就是我們正在接觸到某種更為普遍的東西。」

不過，在Google的高層看來，他們的工作只不過是又一個有趣的人工智慧專案罷了。我曾問過幾位參與Transformer專案的人，他們的上司是不是經常讓他們報告專案進展。實際上這種情況並不多。但是烏斯克爾特說：「我們都知道，這東西有可能會變成一件大事。這也促使我們非常關注論文末尾對未來工作的一段評論。」

那句話預示了接下來可能會發生的事情——transformer模型在基本上一切形式的人類表達上面的應用。他們寫道：「我們對以注意力為基礎的模型之未來感到興奮。我們計畫將transformer擴展到輸入與輸出模態不是文本的問題」，還要研究「圖像、音訊和視訊」。

還有幾天就到截止日期的一個晚上，烏斯克爾特意識到自己的論文得取個標題。瓊斯指出，該團隊已經徹底摒棄公認的最佳實踐，其中最突出的是 LSTM，而轉向這一項技術：注意力機制。瓊斯回憶道，披頭四樂隊有首歌叫做「你所需要的只是愛」（ All You Need Is Love）。為什麼不把這篇論文叫做「你所需要的只是注意力」（ Attention Is All You Need）呢？

披頭四？

瓊斯說：「我是英國人。其實我想到這個只用了五秒鐘。我沒想到他們會採納。」

在截止日期到達之前他們都在不斷收集實驗結果。帕爾瑪說：「我們大概是在提交論文的五分鐘前才弄到，英法互譯資料的。那時候我正坐在1965號樓的一個迷你廚房裡，把最後一批數字弄進去。」不到兩分鐘之後，他們就把論文發出去了。

跟幾乎所有的科技公司一樣，Google很快就為這項工作申請了臨時專利。原因不是為了阻止其他人借鑒這些想法，而是出於防禦目的建立其專利組合。（該公司的理念是「如果科技有所進步，Google就會從中受益。」）

Transformer團隊收到的同行評審回響不一。帕爾瑪說：「有一個評價是積極的，有一個非常積極，還有一個評價是，『還行吧』」。該論文被採用了，但只是被放在了晚間海報展示環節。

到 12 月開會時，這篇論文引起了轟動。 12 月 6 日，他們四小時的海報展示現場已經擠滿了想要瞭解更多資訊的科學家。作者們聊到聲音都嘶啞了。到了晚上10點30分會議結束時，現場仍然人頭攢動。烏斯克爾特說：「最後保全只能讓我們離開」。不過對他來說也許最滿意的時刻是電腦科學家賽普·霍克賴特 (Sepp Hochreiter) 的現身，後者還讚揚了這項工作——鑒於霍克賴特是長短期記憶（LSTM）的共同發明者，而transformer剛剛取代了LSTM在人工智慧工具包的主流地位，這算是相當高的讚譽了。

牆外開花

Transformer 剛開始並沒有馬上征服世界，甚至連Google都沒有征服。凱撒回憶道，在論文發表的時候，薩澤爾曾建議公司高層徹底拋棄搜尋索引，而是用 Transformer 訓練一個龐大網路——也就是基本上徹底改變Google組織資訊的方式。那時候，即便是凱撒也覺得這個想法很荒謬。而現在的共識是，這只是時間問題。

但有家初創公司的反應就要迅速許多。論文發表後不久，OpenAI 的首席研究員伊爾亞·蘇茲克維（Ilya Sutskever，此前在Google任職時他就知道 Transformer 團隊了）建議由自己的科學家艾歷克·雷福德（Alec Radford）研究這個想法。其結果便是最早期的 GPT 產品。就像 OpenAI 的 CEO 山姆·阿特曼（Sam Altman）去年所說那樣：「Transformer 的論文發表時，我覺得Google沒人意識到它會產生什麼樣的深遠影響。」

但從內部看情況更為複雜。烏斯克爾特說：「我們很清楚 Transformer 能做出很神奇的事情。放在今天你可能會問，為什麼Google 2018年不能退出像 ChatGPT 這樣的產品？說實話， 2019 ，或許 2020 年我們就能有 GPT-3 或甚至 GPT-3.5這樣的產品。問題不在於他們有沒有意識到，而在於為什麼我們看到之後沒有採取行動。這個答案很複雜。」

許多技術評論人士指出，Google已經從原先的創新中心慢慢變成更注重利潤和效率的官僚機構。葛麥斯在接受《金融時報》採訪時指出，「他們沒有跟上現代化的腳步，沒有採納這項新技術。」不過，對一個領導行業並攫取巨額利潤數十年的企業巨頭來說，冒險採用全新技術確實是一大挑戰。Google的確在2018年開始往產品整合了 Transformer，首當其衝的是翻譯工具。同樣在那一年，它還推出了一個基於 Transformer 的新型語言模型BERT，並在第二年開始將其應用於搜尋服務。

但是，跟 OpenAI 的巨大飛躍與微軟將基於 Transformer 的系統大膽整合到其產品線相比，Google這些內部技術調整就顯得比較保守了。去年當我詢問首席執行長桑達爾·皮查伊（Sundar Pichai）為什麼率先推出像 ChatGPT 這樣的大語言模型的不是Google時，他認為在這種情況下，讓別人先走一步對Google是有好處的。他回答說：「對於這樣做會不會一樣成功還不是完全明朗。事實上，在人們看到它的工作原理之後，我們有能力做得更多。」

一個不可否認的事實是，這篇論文8位作者全都已離開Google。波洛蘇欽的公司 Near打造出一種市值約達 40 億美元的區塊鏈代幣。帕爾馬與瓦斯瓦尼在 2021 年開始搭檔創業，成立了 Adept （估值約 10 億美元），現在兩人又合夥創辦了第二家公司 Essential AI（已獲得 800 萬美元融資）。利昂·瓊斯在東京設立的 Sakana AI 的目前估值約為 2 億美元。薩澤爾於 2021 年 10 月離職，與人聯合創辦了 Character AI （估值為 50 億美元）。艾丹·葛麥斯是團隊裡面的實習生，2019 年，他回到多倫多與人共同創立了 Cohere（估值約 22 億美元）。雅各·烏斯克爾特的生物科技公司 Inceptive估值為 3 億美元。除了 Near 以外，這些公司的安身立命之基都是 Transformer 技術。

凱撒是唯一沒有出來創業的人。他加入了 OpenAI，是一個叫做 Q* 的新技術的發明者之一，阿特曼去年曾表示，這項技術將「揭開無知的面紗，推動發現的前沿」。（當我在採訪中試圖就此問題詢問凱撒時，OpenAI 的公關幾乎是蹦起來讓他馬上閉嘴。）

Google會想念這些離開者嗎？當然會，也包括其他從Google出走創辦人工智慧初創公司的那些人。（當我問皮查伊有關 Transformer 技術人員離職的問題時，他提醒我，被業界人士熱捧的 OpenAI也不是鐵板一塊，也有人出走。他表示：「人工智慧這個領域瞬息萬變」。）但Google可以很自豪地宣告，他們已經打造出一個支持非常規思想探索的環境。帕爾馬表示：「從很多方面來看，Google一直都走在最前面——他們投資到合適的腦袋，並創造出讓我們可以隨心所欲地探索和挑戰極限的環境。他們需要時間去接納新事物並不奇怪，畢竟Google所承擔的風險要大得多。」。

如果沒有那種環境的話，Transformer就不會出現。這些論文作者不僅都是Google的員工，而且還在同一間辦公室工作。走廊的偶遇與午餐時的閒聊有時候也會擦出思想的火花。這個團隊在文化上十分的多元化。其中有六位作者出生在美國以外的地方，而另外兩位，一個是兩個獲得綠卡，曾在加州短暫停留的德國人的孩子，還有一個是為了逃避迫害才來到美國的第一代美國人的後代。

烏斯克爾特在柏林的辦公室裡說道，創新就是打造合適的土壤。他說：「有對某件事情充滿激情，正好又處在人生合適時候的人。有了這些之後，如果在做的過程中能感受到樂趣，同時研究的又是合適的問題的話——再加上一點運氣——那麼奇跡就會出現。」

在烏斯克爾特跟他那位出名的老爸之間，也發生了一件不可思議的事。在無數次的餐桌辯論之後，兒子報告說，漢斯·烏斯克爾特現在也開始跟人共同創立了一家致力於開發大語言模型的公司了。當然了，用的也是 Transformer 技術。

延伸閱讀：OpenAI真正想要的是什麼？
延伸閱讀：Hyena可達到與 GPT-4 同等的準確性，但使用的算力少 100 倍

資料來源：

8 Google Employees Invented Modern AI. Here’s the Inside Story