谷歌黑科技：能把照片變立體

簡體傳統

利用 DeepStereo 制作的視頻片段

　　北京時間 7 月 10 日下午消息，據美國科技博客 Gizmodo 報道，本周《麻省理工科技評論》(Technology Review)雜志發布的一篇論文披露了谷歌研發的新系統 DeepStereo，該系統可以通過人工智能技術將一系列照片無縫組合成為視頻。

　　論文作者名為約翰-弗林(John Flynn)，是一名谷歌工程師，其他三位合著者也都在谷歌工作。在論文中，弗林闡述了谷歌研發 DeepStereo 系統的全過程。

　　早在 DeepStereo 之前，就有類似利用靜態圖片輸出動畫的技術存在。美國計算機協會計算機圖形專業組（SIGGRAPH）就曾通過網上圖像制作過延時動畫。

　　但與其他靜態圖像生成動畫技術相比，DeepStereo 系統最大的不同在于，它可以猜測出圖像的缺失部分，在空白處創造出來源圖片中沒有的新圖像。據英國媒體 Register 報道，和傳統動畫利用視覺暫停的原理不同，DeepSteoreo 可以想象出兩幅靜止圖像之間的畫面。

　　弗林和他的合著者在論文中寫道，這項技術與之前的產品截然不同，我們嘗試采用新型深度架構直接合成新圖像，不需要預先設置景深、焦距等訓練數據。

　　該系統背后的網絡架構原理十分復雜，借鑒了各種先例。但作者在文中介紹了該技術的獨到之處：系統在工作時會采用兩套獨立的網絡架構。其中之一會根據已有的 2D 數據預測各個像素的景深。另外一個則會對色彩作出預測。兩者共同以 2D 圖像的形式完成對景深和色彩的預測，最終合成視頻。

　　DeepStereo 仍有不足之處：視頻角落的畫面很不清晰。算法沒有涉及到的區域往往是模糊的，無法被覆蓋，也無法使用像素填充，開發團隊解釋說。不過，這套系統暗藏了一個通過模糊的圖源生成物體的小技巧：移動對象在訓練數據中非常常見，我們的模型可以優雅地完成這個動作：開始出現的時候是模糊的，然后逐漸轉換為運動模糊效果。

　　雖然該系統生成的最終產品與通過圖像簡單合成的動畫區別不大，但該技術能夠為谷歌的街景技術錦上添花。同時也能為谷歌的人工智能技術提供一個更加實用的范例。

　　本月，谷歌的夢想機器人在互聯網上走紅，這是該公司超級先進的人工神經網絡，由谷歌的工程師團隊開發而成。設計初衷是要找到一種切實可行的方法，讓計算機辯認出圖像中的內容。谷歌工程師正在教這些不可理喻的人工大腦辨識動物或架構，順便也做做夢，此舉令人感到震驚和恐懼。

Cnblogs 新浪科技 2015-08-23 08:57:40

[新一篇] 西祠老矣，尚能飯否？

[舊一篇] 資本的秘密