當前位置:首頁  要聞綜合  綜合

封面人物|沈春華:做簡單高效的人工智能算法,讓機器“看”得更清楚

發(fā)布時間:2022-07-23來源:浙江大學融媒體中心作者:吳雅蘭2319

當你開著車行駛在馬路上,看到一位老人正要過馬路,你點了點剎車穩(wěn)穩(wěn)停在了斑馬線前;繼續(xù)上路,有塊路面正在維修,你輕輕轉了把方向,繞過施工警示牌……也許對于這些操作,你已經(jīng)駕輕就熟。

但如果這是一輛自動駕駛的汽車呢?如何讓汽車能“看見”面前的這些信息迅速做出反應?這就是機器視覺研究的一個重要應用方向。

前不久回國全職加盟浙江大學計算機科學與技術學院的沈春華教授,正是這一領域的世界頂級學者。深耕機器視覺研究多年的他,此前曾是澳大利亞阿德萊德大學計算機科學學院的終身教授,同時任職澳大利亞機器學習研究院、澳大利亞機器人視覺卓越研究中心,不僅帶領團隊做出過FCOS、RefineNet等知名的視覺算法,還貢獻了不少開源工具。

“希望在浙大,我們能讓機器‘看’得更清楚?!鄙虼喝A說。

 

讓視覺識別更加靈敏

給機器一張圖片或者一段視頻,如何把目標信息找出來?現(xiàn)在常用的是基于錨定框(anchor box)的目標檢測算法,預先設計好不同的模板,讓算法在經(jīng)過“訓練”之后利用最匹配的模板檢測并識別出目標。

“業(yè)界之前普遍認為,去掉錨定框會大大降低識別效果。缺點是算法設計比較復雜,錨定框數(shù)量非常多,比如小汽車是矮矮胖胖的矩形框,路燈桿是細細長長的矩形框,每種常見事物都得考慮進去?!鄙虼喝A說,這些問題影響了視覺識別的效率。于是他帶領團隊開始研究新的算法。

2019年,沈春華和他的博士生發(fā)表論文,提出了FCOSFully Convolutional One-Stage Object Detection)目標檢測算法。這是一個基于FCN算法的無錨點的目標檢測模型,顯著地簡化了目標檢測算法的復雜性,提高識別效率。實踐證明,這個新算法提供了可與基于錨定框的方法媲美的目標檢測效果,目前論文單篇引用量超過2100,成果廣泛應用到了自動駕駛等諸多CV領域中。

“這相當于用逐像素的方法來識別物體。比如對于一輛小汽車,只要能定位出擋風玻璃的幾個關鍵點,就能提取出有效特征,最終定位出這輛車。就像我們只要識別出鼻子,就能大概知道整個臉的輪廓了。”

這個比喻,頗有點牽牛要牽牛鼻子的意味。研究工作也是如此,認準方向,抓住矛盾,然后使出全力。在多年的研究中,沈春華聚焦目標檢測、圖像分割等方向,在NeurIPSCVPR、ICCV等頂會上發(fā)表論文150余篇,除了提出RefineNet、FCOS算法、實例分割新方法SOLO外,還貢獻了AdelaiDet、AdelaiDepth等開源工具,好評如潮

 

算法也講究“大道至簡”

蘋果手機的Siri系統(tǒng)軟件,相信大家已經(jīng)不陌生了,手機通過強大的語音識別功能,可以輕松實現(xiàn)與人對話交流。

可是你能想象,20年前的功能手機,就可以初步實現(xiàn)語音識別了嗎?本世紀初,摩托羅拉手機就率先推出了“念號碼打電話”的功能,用戶對手機說出一串電話號碼或者通訊錄里的姓名,手機就能撥打出去。

而當時的開發(fā)團隊中就有沈春華。“剛好我當時南大的導師和摩托羅拉有項目合作,我就去了摩托羅拉中國研究中心實習,參與了這個項目,也由此開始接觸人工智能相關研究,”沈春華說,那時他常常去圖書館找紙質(zhì)的美國電子工程學會的最新期刊來看,自學了一些基礎算法,“人工智能那時候才剛剛興起,做的人不多,但我還是對它著了迷。”

赴澳大利亞留學后,沈春華將研究鎖定在了計算機視覺領域。從二維的語音到三維的圖像,這又是全新的挑戰(zhàn),他從頭開始學起,不知疲倦。

博士畢業(yè)后,在澳大利亞國家通訊信息研究院工作時,團隊帶頭人是計算機視覺研究先驅之一的理查德·哈特利 (Richard Hartley)。“他們在上世紀80年代開始做計算機視覺時,還沒有數(shù)碼相機,他們就是靠著一支筆、一把尺去做圖像數(shù)字化,研究條件跟今天天壤之別?!?/span>

沿著前輩的足跡,沈春華從跟蹤學習到創(chuàng)新探索,終于在未知的世界里大步踏出自己的路?!安灰^度設計”,這是沈春華一直堅持的,在他看來,簡單有效的算法才是好算法,“不能為了復雜而復雜,算法的最終目的還是解決問題。”

憑著“大道至簡”的設計思路,過去幾年,沈春華團隊跟產(chǎn)業(yè)界合作的一些算法被裝在手機里、電腦里,供上億用戶使用。 


創(chuàng)造更大的社會價值

在澳大利亞學習工作近20年,沈春華似乎觸摸到了天花板,他想創(chuàng)造更多社會價值的想法與浙江大學不謀而合。

“目前人工智能的發(fā)展,中國已經(jīng)超過了大部分西方國家,僅次于美國。浙大計算機學科很強,我入職的計算機輔助設計與圖形學國家重點實驗室是圖形學、圖像領域唯一的國家重點實驗室。站在這樣的高平臺上,身處人才濟濟的團隊中,相信我能和同事們做出一番事業(yè)!”

加盟浙大的半年來,沈春華在學校、學院以及國家重點實驗室的大力支持下建立了自己的研究團隊,擁有了寬敞的實驗用地。“團隊之間都是非常開放的,我很感激這里自由的科研氛圍?!?/p>

沈春華門下不僅有浙大的本科生、碩士生和博士生,其他一些國內(nèi)著名高校的學生也慕名而來。他會花很多時間跟學生交流,有時候甚至會爭得面紅耳赤。在他看來,天賦與勤奮這兩者都是不可或缺的,而能提出創(chuàng)新想法很重要,哪怕花了兩個月時間證明是錯了也是值得的。

目前,沈春華正帶領團隊在計算機視覺領域繼續(xù)深耕,期待通過加強與工業(yè)界的合作,給社會帶來更多價值。同時他還希望能與醫(yī)學、生物等學科開展交叉研究,讓人工智能的研究工作在更廣闊的土地上開花結果。

 (文字記者:吳雅蘭 攝影:盧紹慶)