近日,重慶中科云從科技有限公司(以下簡稱云從科技)提出一種新型DenseBody框架,可直接從彩色照片中獲取3D人體姿勢和形狀。而此基于單幀圖像的3D人體重建技術,將原有最低誤差降低30%,刷新了世界紀錄。
獲取人體3D數據不容易
用Emoji、zepeto等軟件將自己的照片轉換成3D動畫頭像的功能曾風靡一時,但很多人發現,其實生成的3D形象和自己并沒有那么像。
傳統3D重建技術大多需要連續的圖像序列或是多視角的圖像,在硬件設備上一般需要采用雙目攝像機或者結構光攝像機等設備,因此在手機等便攜設備上往往難以實現;另一方面,專用設備還會增加部署成本,增加大規模普及3D重建技術的難度。但基于單幀圖像的3D重建技術對原始圖像要求放松的同時,對背后的技術卻提出了更高挑戰。
“去年,隸屬于云從科技的云從研究院曾提出針對人臉的稠密3D關鍵點技術PRNet,它能夠基于一幀人臉圖像重建出約4.5萬個人臉3D關鍵點,實現了在多個3D人臉數據集上大幅領先之前的技術。而相較于人臉,人體的3D重建更困難。”云從科技資深算法研究員田國棟解釋,人體具有密閉的3D曲面結構,任何一個角度拍攝的圖像都存在約一半的不可見部分;人體的四肢更加多變,更加復雜;還存在因為服裝的遮擋問題,人體的3D數據更難獲取,對深度學習技術的使用限制更多等問題。如果要重建,需要技術從單幀圖像中推理出人體或人臉的3D形態,并通過光學透視、陰影疊加等基本光學原則準確預測出各個關鍵點在3D空間的位置和朝向,才能得到人體的姿態或表情信息。
減少中間損耗讓重建更精準
“針對這些難點,我們提出了一種高效的方法,使用卷積神經網絡(CNN),從單個彩色圖像中直接得到完整的3D人體網格。”田國棟表示。
據了解,以往的3D人體重建算法往往需要將問題降維,將復雜的人體形態從三維降到二維層面,從而降低問題的難度。云從科技此次提出的3D人體重建算法擺脫了低維線性空間的限制,并設計了一種新型的3D信息表征方式,采用6萬多個點表示3D人體,通過卷積神經網絡直接預測人體的3D形態和姿態,從而取得了精度和速度上的雙重突破。
“信息的傳遞層級越多受損越大。”田國棟介紹,與其他研究相比,該研究提出了一個端到端的方法,從單個彩色圖像直接得到3D人體網格,能夠把2D圖像中的完整人體編碼為姿勢和形狀信息,無需依賴任何參數化的人體模型。可謂把3D人體重建的復雜度從兩步降到了一步。同時,該技術還可同時“訓練”一個編碼器—解碼器網絡,該網絡可直接把輸入的彩色圖像映射到3D表示,無需解決2D姿態估計(確定某一三維目標物體的方位指向)等中間任務。
田國棟表示:“我們進行了多次實驗來評估以上方法的效果,并與現有的最優方法進行對比。結果顯示,該方法在多個3D數據集上實現了顯著的性能提升,運行速度也更快,幀率達到200fps后很多應用都可以實時顯示,推動更多智能應用落地指日可待。”(雍 黎)
[
責編:張佳興
]