當(dāng)前位置:首頁  人物風(fēng)采

封面人物|沈春華:做簡單高效的人工智能算法,讓機(jī)器“看”得更清楚

發(fā)布時間:2022-07-23來源:浙江大學(xué)融媒體中心作者:吳雅蘭2319

當(dāng)你開著車行駛在馬路上,看到一位老人正要過馬路,你點了點剎車穩(wěn)穩(wěn)停在了斑馬線前;繼續(xù)上路,有塊路面正在維修,你輕輕轉(zhuǎn)了把方向,繞過施工警示牌……也許對于這些操作,你已經(jīng)駕輕就熟。

但如果這是一輛自動駕駛的汽車呢?如何讓汽車能“看見”面前的這些信息迅速做出反應(yīng)?這就是機(jī)器視覺研究的一個重要應(yīng)用方向。

前不久回國全職加盟浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院的沈春華教授,正是這一領(lǐng)域的世界頂級學(xué)者。深耕機(jī)器視覺研究多年的他,此前曾是澳大利亞阿德萊德大學(xué)計算機(jī)科學(xué)學(xué)院的終身教授,同時任職澳大利亞機(jī)器學(xué)習(xí)研究院、澳大利亞機(jī)器人視覺卓越研究中心,不僅帶領(lǐng)團(tuán)隊做出過FCOS、RefineNet等知名的視覺算法,還貢獻(xiàn)了不少開源工具。

“希望在浙大,我們能讓機(jī)器‘看’得更清楚?!鄙虼喝A說。

 

讓視覺識別更加靈敏

給機(jī)器一張圖片或者一段視頻,如何把目標(biāo)信息找出來?現(xiàn)在常用的是基于錨定框(anchor box)的目標(biāo)檢測算法,預(yù)先設(shè)計好不同的模板,讓算法在經(jīng)過“訓(xùn)練”之后利用最匹配的模板檢測并識別出目標(biāo)。

“業(yè)界之前普遍認(rèn)為,去掉錨定框會大大降低識別效果。缺點是算法設(shè)計比較復(fù)雜,錨定框數(shù)量非常多,比如小汽車是矮矮胖胖的矩形框,路燈桿是細(xì)細(xì)長長的矩形框,每種常見事物都得考慮進(jìn)去。”沈春華說,這些問題影響了視覺識別的效率。于是他帶領(lǐng)團(tuán)隊開始研究新的算法。

2019年,沈春華和他的博士生發(fā)表論文,提出了FCOSFully Convolutional One-Stage Object Detection)目標(biāo)檢測算法。這是一個基于FCN算法的無錨點的目標(biāo)檢測模型,顯著地簡化了目標(biāo)檢測算法的復(fù)雜性,提高識別效率。實踐證明,這個新算法提供了可與基于錨定框的方法媲美的目標(biāo)檢測效果,目前論文單篇引用量超過2100,成果廣泛應(yīng)用到了自動駕駛等諸多CV領(lǐng)域中。

“這相當(dāng)于用逐像素的方法來識別物體。比如對于一輛小汽車,只要能定位出擋風(fēng)玻璃的幾個關(guān)鍵點,就能提取出有效特征,最終定位出這輛車。就像我們只要識別出鼻子,就能大概知道整個臉的輪廓了?!?/p>

這個比喻,頗有點牽牛要牽牛鼻子的意味。研究工作也是如此,認(rèn)準(zhǔn)方向,抓住矛盾,然后使出全力。在多年的研究中,沈春華聚焦目標(biāo)檢測、圖像分割等方向,在NeurIPS、CVPR、ICCV等頂會上發(fā)表論文150余篇,除了提出RefineNet、FCOS算法、實例分割新方法SOLO外,還貢獻(xiàn)了AdelaiDet、AdelaiDepth等開源工具,好評如潮

 

算法也講究“大道至簡”

蘋果手機(jī)的Siri系統(tǒng)軟件,相信大家已經(jīng)不陌生了,手機(jī)通過強(qiáng)大的語音識別功能,可以輕松實現(xiàn)與人對話交流。

可是你能想象,20年前的功能手機(jī),就可以初步實現(xiàn)語音識別了嗎?本世紀(jì)初,摩托羅拉手機(jī)就率先推出了“念號碼打電話”的功能,用戶對手機(jī)說出一串電話號碼或者通訊錄里的姓名,手機(jī)就能撥打出去。

而當(dāng)時的開發(fā)團(tuán)隊中就有沈春華?!皠偤梦耶?dāng)時南大的導(dǎo)師和摩托羅拉有項目合作,我就去了摩托羅拉中國研究中心實習(xí),參與了這個項目,也由此開始接觸人工智能相關(guān)研究,”沈春華說,那時他常常去圖書館找紙質(zhì)的美國電子工程學(xué)會的最新期刊來看,自學(xué)了一些基礎(chǔ)算法,“人工智能那時候才剛剛興起,做的人不多,但我還是對它著了迷。”

赴澳大利亞留學(xué)后,沈春華將研究鎖定在了計算機(jī)視覺領(lǐng)域。從二維的語音到三維的圖像,這又是全新的挑戰(zhàn),他從頭開始學(xué)起,不知疲倦。

博士畢業(yè)后,在澳大利亞國家通訊信息研究院工作時,團(tuán)隊帶頭人是計算機(jī)視覺研究先驅(qū)之一的理查德·哈特利 (Richard Hartley)?!八麄冊谏鲜兰o(jì)80年代開始做計算機(jī)視覺時,還沒有數(shù)碼相機(jī),他們就是靠著一支筆、一把尺去做圖像數(shù)字化,研究條件跟今天天壤之別。”

沿著前輩的足跡,沈春華從跟蹤學(xué)習(xí)到創(chuàng)新探索,終于在未知的世界里大步踏出自己的路?!安灰^度設(shè)計”,這是沈春華一直堅持的,在他看來,簡單有效的算法才是好算法,“不能為了復(fù)雜而復(fù)雜,算法的最終目的還是解決問題?!?/p>

憑著“大道至簡”的設(shè)計思路,過去幾年,沈春華團(tuán)隊跟產(chǎn)業(yè)界合作的一些算法被裝在手機(jī)里、電腦里,供上億用戶使用。 


創(chuàng)造更大的社會價值

在澳大利亞學(xué)習(xí)工作近20年,沈春華似乎觸摸到了天花板,他想創(chuàng)造更多社會價值的想法與浙江大學(xué)不謀而合。

“目前人工智能的發(fā)展,中國已經(jīng)超過了大部分西方國家,僅次于美國。浙大計算機(jī)學(xué)科很強(qiáng),我入職的計算機(jī)輔助設(shè)計與圖形學(xué)國家重點實驗室是圖形學(xué)、圖像領(lǐng)域唯一的國家重點實驗室。站在這樣的高平臺上,身處人才濟(jì)濟(jì)的團(tuán)隊中,相信我能和同事們做出一番事業(yè)!”

加盟浙大的半年來,沈春華在學(xué)校、學(xué)院以及國家重點實驗室的大力支持下建立了自己的研究團(tuán)隊,擁有了寬敞的實驗用地。“團(tuán)隊之間都是非常開放的,我很感激這里自由的科研氛圍?!?/p>

沈春華門下不僅有浙大的本科生、碩士生和博士生,其他一些國內(nèi)著名高校的學(xué)生也慕名而來。他會花很多時間跟學(xué)生交流,有時候甚至?xí)幍妹婕t耳赤。在他看來,天賦與勤奮這兩者都是不可或缺的,而能提出創(chuàng)新想法很重要,哪怕花了兩個月時間證明是錯了也是值得的。

目前,沈春華正帶領(lǐng)團(tuán)隊在計算機(jī)視覺領(lǐng)域繼續(xù)深耕,期待通過加強(qiáng)與工業(yè)界的合作,給社會帶來更多價值。同時他還希望能與醫(yī)學(xué)、生物等學(xué)科開展交叉研究,讓人工智能的研究工作在更廣闊的土地上開花結(jié)果。

 (文字記者:吳雅蘭 攝影:盧紹慶)