圖片繪製、影片製作、文字生成、合併與合作.....盤點都是人工智慧的2023年

人工智慧的進展

今年人工智慧的領域發展，取得了顯著的進步，這些進步更多地是改進了有技術的完善，而不是像去年的ChatGPT或影像產生成器那樣引入開創性的創新。雖然沒有令人驚嘆的效果，而且距離真正的通用人工智慧（AGI）仍然還很遙遠，但今年象徵著從以往的突破到未來更強大的東西之間的過渡階段。為了展示這一演變，用時間軸就可以看出今年人工智慧的顯著進展：

影像生成

Adobe Firefly：Adobe的Firefly和Generative Fill支援多樣化的視覺內容創作，包括插畫、藝術概念和照片處理。Adobe Firefly整合到Photoshop中，讓AI能夠普及，立刻將其影響力擴展到廣泛的使用群。文字效果功能的推出也象徵著一個重要的進步，使使用者能夠將風格或紋理應用於單詞和短語。
Midjourney：Midjourney的V.5模型象徵著影像生成的一個里程碑，展示了更高的效率、連貫性和更高的解析度。最新的alpha版本，Midjourney V.6，帶來了其他的增強，像是準確的提示遵循、增加的模型知識和輕微的文字繪畫能力。
DALL·E 3：基於ChatGPT，DALL·E 3簡化了影像生成，消除了對複雜提示工程的需求。此外，ChatGPT引入了一項功能，幫助使用者完善提示並根據回饋進行影像調整。
Shutterstock.AI：這家庫存影像巨頭整合了AI能力，允許使用者將提示轉換為可授權的影像。Shutterstock在認識並獎勵貢獻藝術家的同時，邁出了道德AI的第一步。

延伸閱讀：專家實測Adobe Firefly對決MidJourney，昔日PS大神挑戰生成式AI繪圖結果會是如何？
延伸閱讀：Midjourney能畫出文字了！V6版5大功能升級驚豔網友

影片生成

Stability AI：Stability AI推出了Stable Video Diffusion，這是一個開創性的生成式影片模型，並在GitHub上提供了開源存取。與AI影像生成趨勢相呼應，Stable Video Diffusion模型很有可能在創造大量AI生成的影片中發揮關鍵作用。
HeyGen：AI初創公司推出了一款工具，用於影片中的語音複製、唇部動作調整和語言翻譯。 Runway Gen-2：Runway推出了Gen-2模型，使用者可以輕鬆地僅憑文字提示、圖像或其他影片產生完整的影片。只要看看下面的例子。
Pika和Pika 1.0：Pika在初次發表時吸引了五十萬使用者，每週產生數以百萬計的影片。隨後Pika 1.0的升級模型，讓使用者以各種風格創建和編輯影片，包括3D動畫、動漫、卡通和電影風格。
Meta的Codec頭像：Meta的Pixel Codec頭像（PiCA）模型用於影片中的3D人臉，讓我們在遠端互動時，也能得到接近照片級的真實感受。

Turn words into worlds with the most advanced text to video AI model: Gen-2

Any story. Every style. Completely generated.https://t.co/ekldoIshdw pic.twitter.com/q1xK84hpd1
— Runway (@runwayml) December 4, 2023

文字生成

Bard和Gemini：Google的Bard為聊天機器人領域增加了類似於人類的情感和情緒，引入到Bard聊天機器人中並在多模態數據集上訓練。Google的Gemini作為「最有能力」的AI模型之一，也是最接近OpenAI的ChatGPT的競爭對手。
Grok： Elon Musk 的新創公司 xAI透過推出「Grok」 ——一個幽默、叛逆、透過平台提供即時知識的聊天機器人，標誌著對人工智慧開發的承諾，並有可能與 OpenAI 競爭。xAI 承諾 Grok在回答時，會回答其他人工智慧系統拒絕回答的挑釁性問題。
OverflowAI：Stack Overflow 的 OverflowAI 增強了知識管理，支援在 Visual Studio Code 和 Slack 中透過 AI 搜尋相關答案。
Llama 2：Meta發表了Llama 2，這是其開源大型語言模型的下一代，展示了提高的效率。Meta經過微調後LLM還針對對話範例進行了最佳化，在大多數基準測試中優於其他開源模型。
GPT-4：OpenAI的GPT-4現在可以處理圖像輸入，產生字幕、分類，進行來回對話，並支援即時網頁瀏覽。OpenAI還擴充了對外掛的支援，培育一個充滿開源競爭者的生態系統。GPT-4是OpenAI開發AGI之旅的下一步。
Mistral 7B：今年估值約20億美元的Mistral AI發布了Mistral 7B，這是一個挑戰GPT-4和Claude 2的大型語言模型。Mistral AI強調開放技術方法，免費提供了其模型下載。
Mixtral 8x7B：Mistral AI還推出了Mixtral 8x7B，這是一個高品質的稀疏專家混合模型(SMoE)，具有開放的權重，擁有467億個總參數，開創了在提高真實性和減少偏見方面的模型開放性。
Yi-34B llm：今年估值10億美元的Kai-Fu Lee的初創公司01.AI發布了Yi-34B —— 一個開源神經網絡，它在參數數量明顯更高的競爭模型中表現出色，強調了其成本效益。

延伸閱讀：Gemini是Google迄今為止最強大的AI模型，宣稱比ChatGPT好得多
延伸閱讀：OpenAI 新功能太強，伺服器瞬間被擠爆！除了 GPT-4 Turbo 和 GPTs 商店，還有二個開源專案也很值得關注
延伸閱讀：歐洲版OpenAI「Mistral AI」爆紅！創業180天估值20億美元！連NVIDIA都入股了

其他進展：

Segment Anything Model (SAM)：這是一種無需額外訓練即可「切割」圖像中物體的分割模型，強調了其適應性。SAM 在龐大的資料集上進行了訓練，展示了其在物件分割方面的強大性能。
直接偏好最佳化（DPO）：DPO作為一種穩定且高效的方法，用於微調大規模無監督語言模型和教授文字到圖像的模型。它在沒有複雜的人類回饋強化學習（RLHF）的情況下，做到了精確控制。
Zephyr直接偏好蒸餾對齊（Zephyr Direct Distillation of LM Alignment）：Zephyr-7B是蒸餾直接偏好最佳化（dDPO）的成果，為擁有70億參數的聊天模型設定了基準，增強了意圖對齊而無需大量訓練。
自主AI代理：自主AI代理作為一個顯著趨勢出現，展示了朝著先進和自主AI系統的轉型性轉變。AI代理被認為是AGI的第一眼，因為它們可以基於使用者的目標產生自我指導的任務和指示，並自主工作直到目標實現。
EvoDiff：微軟的EvoDiff是一個用於快速且節省成本的蛋白質生成的開源AI框架，有望在治療和工業應用方面取得進展。
Stable Audio：Stability AI 推出了一款工具，可以根據簡單的文字提示產生簡短的高品質音訊剪輯。
GPT Store、Copyright Shield、ChatGPT Bot Constructor：OpenAI推出了GPT Store，用於銷售客製化的GPT機器人，Copyright Shield用於涵蓋與版權侵權索賠相關的法律費用，以及一個用於客製化ChatGPT版本的無程式碼平台。
Stability AI開源了其LLM：Stability AI已經開源了其模型StableLM-Alpha和Stable Vicuna，以在生成文本和程式碼方面的卓越性能而聞名。Stable Vicuna是第一個使用人類回饋強化學習（RLHF）訓練的開源聊天機器人。此外，Stability AI還推出了SDXL Turbo，這是一個即時文字到圖像生成模型。

延伸閱讀：Stability AI老闆大膽預測「5年內，不會有人類程式設計師了」！許多大咖吐槽：大錯特錯，懶得跟你說

合併與合作

在2023年的動態領域中，產業領導者之間出現了重要的合作關係，塑造了未來的軌跡。以下是2023年定義AI領域的頂尖合併和合作夥伴關係：

Stability AI與Init ML：Stability AI透過收購Init ML邁出了一大步，Init ML是流行編輯應用ClipDrop的背後的大腦。目標很明確：將Stability AI的先進技術整合進ClipDrop的生態系統。這次合作已經促成了SDXL Turbo的開發。
Runway與Getty Images：Runway與Getty Images建立了戰略合作夥伴關係，推出了一種新的影片生成模型RGM（Runway和Getty Images模型）。該模型結合了Runway的AI能力和Getty Images的授權創意內容庫。這次合作旨在革新內容創建工作流程，使公司能夠生成高品質、客製化的影片，符合其品牌身份。
Snowflake與Neeva：資料倉儲平台的主要參與者Snowflake收購了以使用生成AI增強搜尋體驗而聞名的初創公司Neeva。Neeva最近關閉了其基於訂閱、無廣告的搜尋引擎。Neeva的創始人也承認了說服使用者嘗試新搜尋引擎的挑戰。
Shutterstock與OpenAI：Shutterstock與OpenAI承諾進行為期6年的延長合作關係。OpenAI獲得了Shutterstock的高品質數據，豐富了其模型訓練數據集，涵蓋了多樣化的圖像、影片和音樂庫。Shutterstock繼續利用OpenAI的技術，推出Shutterstock的AI圖像生成工具。

法律景觀

在不斷變化的人工智慧法律領域中，2023年發現自己處於充滿不確定性和持續辯論的景觀中。隨著新挑戰的出現，圍繞版權、企業政策和更廣泛的監管框架的討論繼續進行，塑造著AI法律景觀的輪廓。以下是2023年最重要的法律問題：

歐洲AI法案：歐盟引入了AI法案，這是世界上第一部全面規範AI使用的法律。該法案根據AI系統所帶來的風險進行分類，並相應制定規定。儘管AI法案已經初步達成一致，但其實施面臨延遲，要到 2025 年才會開始執行。
美國著作權區對AI生成內容註冊的立場：美國著作權區的立場很明確，拒絕為由AI演算法Midjourney創建的圖像註冊版權。這次駁回開創了先例，聲稱僅由人工智慧創作、沒有人類參與的人工智慧藝術品沒有資格獲得版權保護。同樣，美國著作權區就AI輔助作品發布了指導意見，澄清了人類使用AI工具創建的作品可能符合版權保護資格。該指導確認了人類使用AI工具創建的作品應根據人類在創作這些作品中的作用是否起決定性作用進行評估。

「目前，現有的法律體系尚未準備好承認AI創建作品的版權，因為AI是從現有數據中學習的，這些數據的權利屬於其他人，這挑戰了所有權的歸屬。預計明年將透過公眾參與國家進行的調查來解決這個問題。沒有更廣泛的公眾參與，現在獨立解決這個問題是困難的。」

Everypixel的公司律師Daria Kuznetsova

麥肯錫還發布了一個全面的圖表，記錄了2023年最重要的AI管理相關政策和監管方面的工作。這個視覺呈現突出了2023年在塑造AI法律景觀方面的重要貢獻。

延伸閱讀：AI風險難預料？歐洲試行人工智慧道德規範
延伸閱讀：美國版權局裁定，由Midjourney等AI繪圖服務製作出的圖片不受版權保護
延伸閱讀：美國版權局再次拒絕對使用人工智慧創作的藝術作品提供版權保護

討論

2023 年充滿了有趣的辯論和討論，應對人工智慧領域的不確定性和不斷變化的規範。隨著產業發展的進程，這些爭論變得不可避免，並預示著即將出現更多發人深省的對話和挑戰。以下是定義這一年的一些最值得注意的辯論：

對ChatGPT公司的限制：包括摩根大通、花旗集團、美國銀行、德意志銀行、高盛和富國銀行在內的主要金融機構由於安全和隱私顧慮限制了ChatGPT的使用。這反映了一個更廣泛的趨勢，即公司向員工發出警告，提醒他們注意與企業環境中AI應用相關的法律考慮。
OpenAI使用低薪工人：《時代》雜誌的調查揭露了OpenAI與Sama的合作，雇佣肯尼亞的低薪工人篩選ChatGPT的敏感內容。這一發現引發了關於工人待遇和內容審核對心理健康影響的倫理問題。
OpenAI的領導層變動：Sam Altman的離職和迅速回歸上個月成為頭條新聞。在與董事會溝通不一致的情況下，Sam Altman辭去了OpenAI的職位，展開了一場領導層變動。代理首席執行長Mira Murati和大多數員工主張Altman回歸。這種前所未有的情況引起了廣泛關注，留下了關於變動背後真正原因和未來影響的問題。
Adobe與Figma：Adobe為收購Figma的200億美元計劃遇到了監管障礙，歐洲委員會和英國競爭和市場管理局因潛在的反壟斷問題展開了調查。該提議的交易影響不僅限於設計方面，因為Adobe在客戶數據平台的主導地位讓首席訊息長（CIO）對其可能對雲端軟體支出的影響感到擔憂。然而，Adobe由於在歐洲和英國獲得反壟斷批准方面的挑戰而放棄了這筆交易，導致向Figma支付了10億美元的終止費用。
攝影師入侵世界攝影獎：攝影師Boris Eldagsen透過提交由AI生成的藝術作品，打亂了索尼世界攝影獎。Eldagsen拒絕接受獎項，引發了關於AI生成圖像在傳統攝影比賽中的地位的辯論，挑戰了對真實性和創造力的看法。

延伸閱讀：索尼世界攝影大獎頒獎典禮上，一位優勝組照片創作者自曝是由AI生成圖片拒絕領獎
延伸閱讀：OpenAI 董事會意外的一日政變推翻了CEO Altman 阿特曼，當天到底發生甚麼事、完整細節還原
延伸閱讀：被開除是因為阿特曼花OpenAI十六億台幣，購買自己投資的新創公司晶片？