相關閱讀 |
>>> 技術話題—商業文明的嶄新時代 >>> | 簡體 傳統 |
多倫多大學網站上有一個好玩的圖像識別 Demo 應用。簡單點說,這個 Demo 可以把輸入圖像轉化成文字描述的輸出:比如你上傳一張喵星人在玩球的圖片,系統就會用自然語言的形式輸出他對該圖片的“認識”:貓在玩球。 斯坦福大學也有類似的研究,他們建立了一個可以對圖像內容產生自然語言描述的模型,雖然目前還沒有做出 Demo,但是他們已經在 Github 里上傳了模型源碼。 Google 在上個月 17 號發了篇官方博文,也是介紹類似的技術:同樣是讓計算機“認識”圖像的內容,并用文字描述出來。 你可能想到了昨天梵高(點擊左下方“閱讀原文”查看)那篇文章,或者是普通的機器學習:程序猿事先準備龐大的訓練集,抽取圖像的多維特征向量,然后訓練分類器,再讓程序進行圖像處理。 不不不,我們這里討論的比這還要再高端一點。 你大概知道我想聊什么了。 單個物體的識別其實是不太夠的,我們經常專注于識別具體的物體,而忽略了物體的動作,以及物體和物體間的聯系。這樣的程序很“傻”,我們只是試圖讓程序記住某個物體對應的名字,而不是正確理解圖像里的內容——也就是說,他們無法“認知”圖像。 但深度學習(deep learning)突破了這一點,深度學習讓計算機可以自我修養。上面那三個例子,多倫多大學、斯坦福大學以及 Google 的研究,都是基于深度學習這項技術。用自然語言描述圖像內容的意義在于,程序必須精確識別圖像中所有重要的信息,包括物體相互之間的聯系。在這種情況下程序具備了“認知”的能力。 深度學習模仿了人腦的學習過程:人總是先學習簡單的概念,再用這些概念去描述更抽象的內容。 比如當我們看到某只喵星人在草坪里散步的情景,我們的大腦將一大波光子轉化成一系列有意義的概念:視覺皮層會連續性的分層處理這一圖像,利用每一層里的神經元把信息傳導到后面更高一層,高層再把這些信息慢慢聚合成更好理解的特征。具體點說,視網膜神經元檢測到視野里有一些反差(物體邊緣或端點),會把這一信息傳導給高層神經元,高層神經元再試圖把所有接收到的這些邊緣信息組合配對,然后再進行傳導,配合上聲音信息,頂層神經元最后就形成某個具體的概念:貓。 深度學習就是利用類似的人類視覺皮層分層架構——人工神經網絡(ANN)。深度學習先構建多層感知器,通過組合低層特征形成更加抽象的高層來表示屬性類別(或者是更高級的特征),以發現數據的分布式特征表示。簡單點說,深度學習可以自己挖掘相關的特征訓練自己,擁有自主學習的能力,他們可以自我修養。 對于大腦這個神秘的構造,我們其實了解的非常少。深度學習也出現了這種情況:工程師對程序具體是怎么搞定訓練特征的,其實也不太明白。很多情況下連程序員都不知道程序該如何學習理解某個概念,程序自己就搞定了。 但近日據 quantamagazine 的消息,兩個物理學家 Pankaj Mehta(波士頓大學)和 David Schwab(美國西北大學)發現了一些新東西。他們在一篇論文里指出:深度學習和基本粒子、液體、宇宙等物理系統里大規模物理行為的計算方法有類似的地方。在他們的論文里,這種統計方式被稱作 renormalization,用來幫助物理學家在不知道系統具體組成部分所處狀態的情況下精確的描述系統。他們指出,這種方法也可以讓人工神經網絡在不知道貓的具體顏色、大小、形態的情況下概括出貓的特征,“認識”并描述各種各樣的貓。 鑒于深度學習是模仿人腦認知的過程,深度學習和物理學上 renormalization 的相似性,表明了人腦可能也是利用了某種 renormalization 方式來認知這個世界的。 人腦、物理、計算機,搞了半天,原來大家殊途同歸啊。宇宙真奇妙。 這件事真正讓人激動的地方或許在于,人腦認知、深度學習和物理學 renormalization 這三者在信息理論(information theory)領域的共同性:他們都致力于減少信息數據的冗余。進一步地,他們也都可以壓縮信息的本質——壓縮成互相之間毫無關聯的基礎概念:一只喵星人有那么多表現形態,深度神經網絡會把所有的形態信息聚集起來,壓縮成核心的最簡形態。 一只貓如此,宇宙何嘗不可以這樣。 深度學習沒有道理做不到這一點,因為我們自己就是成功的先例:我們已經用和深度學習相似的人腦成功認知了一遍這個世界。如果你覺得計算機相比人腦要呆板很多的話,那看看描繪了整個宇宙的物理學吧。 當然,這些結論現在下得都還太早。 我只是單純的期待,或許有一天,計算機也能這樣去描述、概括、認知這個世界。 對深度學習感興趣或者有所了解的同學歡迎郵件交流:suxiaoqiang#36kr.com
36氪 2015-08-23 08:42:48
稱謂:
内容: