很多廠商都說要在 2020 年推出自動駕駛汽車,無論這些車的自動駕駛程度如何,都要依靠“計算機視覺”技術(shù)來實現(xiàn)。 計算機視覺 (Computer Vision,CV),這是一門研究如何使機器” 看” 的科學,更進一步說就是用攝影機和電腦代替人眼對目標進行識別、跟蹤和判別決策等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。 作為一個科學學科,計算機視覺研究與其相關(guān)的理論和技術(shù),試圖建立能從圖像或者多維數(shù)據(jù)中獲取「信息」的人工智能系統(tǒng)。比爾·蓋茨說過:IT 界的下一次大事將是計算機視覺與深度學習的結(jié)合。 怎么才能讓機器或智能汽車變得像人類一樣聰明? 首先要讓它感受到這個世界,然后再對感受到的信息處理反饋。從任天堂的 Wii 到微軟的 Kinect,再到谷歌的 Project Tango,都是如此。 2014 年 2 月,谷歌已經(jīng)成功為該項目研發(fā)出了一款 Android 手機原型機,配備了一系列攝像頭、傳感器和芯片,能實時為用戶周圍的環(huán)境進行 3D 建模。另外還有微軟的 Hololens 全息眼鏡,從這些設備上,我們看到了計算機視覺技術(shù)的飛速發(fā)展。 視頻和圖像之中包含了大量的數(shù)據(jù),過去我們不知道怎么讓機器來捕捉和利用這些數(shù)據(jù)。但隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡的提出和運用,這些數(shù)據(jù)慢慢的能被機器解讀到了。這些進步為以后的汽車自動駕駛,打下了獲得信息和處理信息的基礎。 目前在研究計算機視覺技術(shù)的有很多公司,比如 SenseTime(商湯)、Cogtu(知圖科技)、Deepglint(格靈深瞳)等。 商湯是做計算機學習和深度學習技術(shù)的典型公司,核心技術(shù)有人臉識別、圖像識別、圖像處理、智能監(jiān)控。
此外就是格靈深瞳,這家公司的聯(lián)合創(chuàng)始人趙勇,在剛剛閉幕的 2015 杭州云棲會議上提到:目前絕大多數(shù)自動駕駛技術(shù)非常昂貴,一輛自動駕駛汽車感知成本可能要上百萬人民幣,比汽車本身還貴。在他展示的視頻里,計算機視覺技術(shù)讓每輛車都有自己的眼睛。這套系統(tǒng)在汽車行駛的時候像人的眼睛一樣能看懂交通標識,道路信息和各種不同的路況。 計算機視覺技術(shù)除了在汽車上使用外,還可以在智能交通領域幫上忙。在路口的紅綠燈可以通過使用該技術(shù),來判斷所在道路交通流量,然后自動變燈,增加路口的通行能力。
從論文數(shù)量和創(chuàng)業(yè)公司數(shù)量就可以看出來,近兩年計算機視覺發(fā)展速度很快。但對于自動駕駛來說,目前仍面臨諸多問題,比如對芯片的計算速度要求很高、高昂的成本等等。計算機視覺可以讓自動駕駛成為現(xiàn)實,但離普及的程度還有一段距離。
|