配上 AI 的手機所拍出來的照片，真的能和單眼相機一較長短嗎？

目前，出現在新一代智慧型手機上的3D感應器，只是機器學習所引發的攝影技術浪潮的冰山一角，該類技術將不僅僅修正智慧型手機照片的缺點，還將為攝影帶來一些令人驚嘆的新元素。

攝影在智慧型手機時代已經發生了改變，不僅拍攝姿勢不同（比如自拍），手機鏡頭捕捉光線的整個過程也變得完全不一樣了。鏡頭不再只是一個透鏡和感應器，它們還整合了一組演算法，這些演算法可以立即處理圖像，瞬間就能獲得PC軟體耗費數小時才能實現的照片效果，攝影已然成為運算領域的一門學問。

人工智慧機器學習形式持續不斷的進步將會帶來更多的功能，讓今天的智慧型手機照片變得過時。

外媒認為，體現當今手機的尖端攝影技術的最新例子包括：Alphabet子公司Goolge的Pixel 3智慧型手機照片，以及Apple iPhone X的照片。在Pixel 3上，Goolge使用機器學習在低光照條件下捕捉更多的細節，使得夜景看起來像白天。這些根本不是自然界中曾經存在過的鏡頭，它們完全是超解析度的圖片。

從2017年推出iPhone X開始，Apple公司添加了「bokeh」，巧妙地模糊了焦點之外的元素，這並不是像傳統攝影那樣透過鏡頭本身的某些方面來實現的，而是透過在捕捉到圖像後對像素進行運算調整來實現的。

「移軸」相機

我們預測，2019年和2020年的突破性發展很有可能是透過操控圖像的視角來改善，希望這能修正智慧型手機攝影中固有的失真問題，這些失真使得智慧型手機在數位單眼（DSLR）相機照片面前相形見絀。

▲ 卷積神經網路（CNN）試圖從一張圖片中重構現實的過程

事實上，它們可以達到類似於「移軸」相機的效果。在移軸相機中，鏡頭所成的角度可彌補一個人站在相機前的角度，進而修正由於個人與場景之間的角度造成的圖像失真。單眼相機使用者可以在由不同的供應商提供的各種可拆卸鏡頭中實現移軸功能。

一般的手機鏡頭都有一個非常小的透鏡鏡筒，因此它所捕捉到的一切東西都是扭曲的。在現實世界中，沒有什麼形狀是恰到好處的。大多數人可能不會注意到，又或者可能不會在意，因為他們已經習慣了Instagram上的自拍。但如果能改善這些畸變就更好了。這一點能做到的話，那麼它將會是來自Goolge、Apple 等公司的下一輪智慧型手機主推的一個賣點。

iPhone和其它品牌的手機將越來越多地搭載帶有3D感應器的後鏡頭。這些感應器由Lumentum Holdings和其他的晶片供應商等公司製造，透過發出光束並計算它們在物體反彈後如何返回手機，來測量手機周圍環境的深度。「飛行時間」等技術可以讓手機詳細測量周圍環境的3D結構。

那些感應器可以利用的是，近年來為瞭解2D圖像和現實世界之間的關係而進行的大量統計工作。

▲ Goolge Pixel 3智慧型手機上的「夜拍」功能

人們做了大量的統計工作來實現移軸鏡頭那樣的物理特性，不管是有特殊攝影裝置的，還是沒有特殊攝影裝置的。例如，一項名為「隨機抽樣一致性」（RANSAC）的技術可以追溯到1981年，專門用於尋找3D世界中的地標，這些地標可以映射到2D圖像平面上的點，以便瞭解2D圖像與3D現實世界之間的關係。使用這種技術，可以更好地理解2D呈現是如何與現實世界相對應的。

2015年，佛羅倫斯大學的一組研究人員在RANSAC技術的基礎上，透過對相機拍攝的照片進行逆向推理，推導出了一種泛傾斜變焦相機的結構，他們能夠透過軟體來分析相機位置的不同在什麼程度上引發了失真，進而有效地將控制相機的執行機構調至最佳狀態，他們可以將這種技術用於影片，而不僅僅是用於靜止的圖像。

2017年，德國愛爾朗根-紐倫堡大學和伍茲霍爾海洋學研究所的研究人員展示了一個名為CameraTransform的Python庫，該庫可讓人們通過對拍攝的圖像進行逆向運算，來估算物體在現實世界中的真實尺寸。

▲ 四角觀察：研究人員創建的一種神經網路，由編碼器和解碼器結合生成對抗網路組成，被用於推斷圖片中被遮擋的物體

去年，德國慕尼黑工業大學和佳能公司的研究人員表示，只需拍一張圖片就可以推斷出被另一個物體遮擋的場景中有什麼。這種技術被稱為「分層深度圖像」，可以透過從照片中移除一個物體來創建新的場景，呈現相機從未見過的背景，但這是透過圖像運算實現的。該方法使用了許多神經網路應用中常見的編碼-解碼器方法來估計場景的深度，也使用了「生成對抗網路」（GAN）來構造場景中在拍攝照片時從未實際出現在視野裡的部分。

所有的這些研究正在不斷湧現，並將在下一代配備3D感應器的智慧型手機鏡頭上達到高潮，帶來一些不可思議的功能特性。這種研究應該會帶來令人驚嘆的成果。至少，人們可以想像，用智慧型手機拍攝出的人像不再會出現怪異的面部扭曲。超解析度的建築圖片將有可能透過消除鏡頭上的所有扭曲而形成平行線。隨著手機變得能夠大量產生精確度和逼真度皆十分驚人的照片，智慧型手機行業將能夠在與單眼相機的交鋒中取得又一場勝利。

但是，智慧型手機攝影的長期趨勢當然是遠離現實主義，而轉向取得更引人注目的效果。這在計算攝影誕生之前是無法想像的。因此，我們可能會看到3D傳感技術的應用趨向於超現實主義。

舉例來說，移軸相機可以用來創造一些出奇漂亮的效果，比如縮小景深到一個極端的程度，這會使得風景看起來就像玩具模型，但效果還是出奇的好，有些手機應用程式也能做到類似的事情，但將3D感應器與人工智慧技術結合起來的效果，將遠遠超出那些應用程式所能達到的效果，Photoshop中有實現移軸的技術，但是每次按下快門按鈕，相機都會產生同樣的效果，毫無疑問會讓人更加心滿意足。

光靠人工智慧可行嗎？

未來，在推進機器學習技術方面，會有另一個重要的階段。我們有可能會放棄使用3D感應器，而僅僅使用卷積神經網路（CNN）來推斷物體在空間中的坐標，這將節省在手機中安裝感應器的費用。

然而，就像微軟的研究人員和學術合作者在本週發表的一份報告中所討論的那樣，目前這種只使用軟體的方法收效甚微。他們寫道，只使用軟體的方法被稱為「絕對姿態回歸」（absolute pose regression），在經過訓練後它並未能推而廣之，這意味著無論卷積神經網路掌握了什麼技術，在用新圖像進行測試時，它都無法準確估量幾何圖形。

該報告的作者認為，他們的研究是對純軟體方法的「一項重要的合理性檢查」。他們的結論是，「姿態回歸方法要變得切實可行，還長路漫漫。」

這項工作將如何完成呢？不僅僅依靠研究人員。它將需要許許多多的智慧型手機使用者的參與。有了帶有3D感應器的新型手機，他們將能夠拍攝出令人印象深刻的3D感應增強圖像。當他們這樣做的時候，他們的設備，或者雲端，將會跟蹤現實世界的幾何結構與2D圖像之間的關係。

換句話說，它將利用所有的這些活動來持續進行學習，總有一天，只要有足夠的3D圖像，卷積神經網路或任何其它被使用的演算法都能足夠聰明地觀察這個世界，即使沒有3D感應器幫助提供深度感知能力，也能準確地知道這個世界是什麼樣的。