講座題目:Depth estimation from single image基于單幅圖像的深度估計
講座時間:2016年3月29日(周二)13:30
講座地點:科研樓322室
主講人:戴玉超博士
戴玉超博士現為澳大利亞國立大學工程研究院ARC DECRA(澳大利亞研究委員會卓越青年研究獎)學者。師從西北工業大學何明一教授,他分別于2005、2008和2012年獲得信號與信息處理專業學士、碩士和博士學位。2008年至2009年受國家留學基金委資助赴澳大利亞國立大學聯合培養,對方導師為幾何計算機視覺的奠基者Richard Hartley教授。他的研究方向包括結構與運動恢復、多視角幾何、深度學習、人機交互、壓縮感知和最優化等。他先后在計算機視覺領域的頂級期刊和會議如IEEE模式分析與機器智能(TPAMI)、國際計算機視覺期刊(IJCV)、國際計算機視覺大會(ICCV)、IEEE計算機視覺與模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)等發表論文多篇。他與何明一教授和澳大利亞國立大學Hongdong Li副教授合作完成在非剛性結構與運動恢復方面的研究工作獲得CVPR 2012最佳論文獎(大陸高校28年來首次獲得該獎項)。近期他的研究工作致力于通過單目視頻序列進行復雜動態場景的分析和理解。
內容摘要:
Predicting the depth of a scene from a single image is a challenging and essentially under-determined task. In this talk, I will present how to tackle the problem by using deep convolutional neural network (DCNN) and continuous conditional random fields (CRFs). In this way, the number of training images required has been greatly reduced. Our framework works at two levels, the super-pixel level and the pixel level. First, we design a DCNN to learn the mapping from multi-scale image patches to absolute depth value at the super-pixel level. Second, the estimated depth at the super-pixel level is refined to the pixel level by using hierarchical CRFs. Experiments on the Make3D, NYU Depth V2 and KITTI datasets show competitive if not superior performance compared with current state-of-the-art methods.
從單幅圖像預測場景的深度是一項本質上欠約束的具有挑戰性的問題。針對此問題,提出一種采用深度卷積神經網絡和連續條件隨機場的方法,極大的減少了所需訓練樣本的數量。提出的方法在兩個層次上工作,即超像素級別和像素級別。首先,深度卷積神經網絡在超像素級別上從多尺度圖像塊學習絕對的深度信息;其次,超像素級別的深度值通過分層條件隨機場提升到像素級別。 Make3D, NYU Depth V2和KITTI數據上的實驗表明提出的方法取得當前最好性能。