僅憑一張照片就能生成3D人體模型
近日,重慶中科云從科技有限公司(以下簡稱云從科技)提出一種新型DenseBody框架,可直接從彩色照片中獲取3D人體姿勢和形狀。而此基于單幀圖像的3D人體重建技術(shù),將原有最低誤差降低30%,刷新了世界紀(jì)錄。
獲取人體3D數(shù)據(jù)不容易
用Emoji、zepeto等軟件將自己的照片轉(zhuǎn)換成3D動畫頭像的功能曾風(fēng)靡一時,但很多人發(fā)現(xiàn),其實生成的3D形象和自己并沒有那么像。
傳統(tǒng)3D重建技術(shù)大多需要連續(xù)的圖像序列或是多視角的圖像,在硬件設(shè)備上一般需要采用雙目攝像機或者結(jié)構(gòu)光攝像機等設(shè)備,因此在手機等便攜設(shè)備上往往難以實現(xiàn);另一方面,專用設(shè)備還會增加部署成本,增加大規(guī)模普及3D重建技術(shù)的難度。但基于單幀圖像的3D重建技術(shù)對原始圖像要求放松的同時,對背后的技術(shù)卻提出了更高挑戰(zhàn)。
“去年,隸屬于云從科技的云從研究院曾提出針對人臉的稠密3D關(guān)鍵點技術(shù)PRNet,它能夠基于一幀人臉圖像重建出約4.5萬個人臉3D關(guān)鍵點,實現(xiàn)了在多個3D人臉數(shù)據(jù)集上大幅領(lǐng)先之前的技術(shù)。而相較于人臉,人體的3D重建更困難。”云從科技資深算法研究員田國棟解釋,人體具有密閉的3D曲面結(jié)構(gòu),任何一個角度拍攝的圖像都存在約一半的不可見部分;人體的四肢更加多變,更加復(fù)雜;還存在因為服裝的遮擋問題,人體的3D數(shù)據(jù)更難獲取,對深度學(xué)習(xí)技術(shù)的使用限制更多等問題。如果要重建,需要技術(shù)從單幀圖像中推理出人體或人臉的3D形態(tài),并通過光學(xué)透視、陰影疊加等基本光學(xué)原則準(zhǔn)確預(yù)測出各個關(guān)鍵點在3D空間的位置和朝向,才能得到人體的姿態(tài)或表情信息。
減少中間損耗讓重建更精準(zhǔn)
“針對這些難點,我們提出了一種高效的方法,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),從單個彩色圖像中直接得到完整的3D人體網(wǎng)格。”田國棟表示。
據(jù)了解,以往的3D人體重建算法往往需要將問題降維,將復(fù)雜的人體形態(tài)從三維降到二維層面,從而降低問題的難度。云從科技此次提出的3D人體重建算法擺脫了低維線性空間的限制,并設(shè)計了一種新型的3D信息表征方式,采用6萬多個點表示3D人體,通過卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測人體的3D形態(tài)和姿態(tài),從而取得了精度和速度上的雙重突破。
“信息的傳遞層級越多受損越大。”田國棟介紹,與其他研究相比,該研究提出了一個端到端的方法,從單個彩色圖像直接得到3D人體網(wǎng)格,能夠把2D圖像中的完整人體編碼為姿勢和形狀信息,無需依賴任何參數(shù)化的人體模型。可謂把3D人體重建的復(fù)雜度從兩步降到了一步。同時,該技術(shù)還可同時“訓(xùn)練”一個編碼器—解碼器網(wǎng)絡(luò),該網(wǎng)絡(luò)可直接把輸入的彩色圖像映射到3D表示,無需解決2D姿態(tài)估計(確定某一三維目標(biāo)物體的方位指向)等中間任務(wù)。
田國棟表示:“我們進行了多次實驗來評估以上方法的效果,并與現(xiàn)有的最優(yōu)方法進行對比。結(jié)果顯示,該方法在多個3D數(shù)據(jù)集上實現(xiàn)了顯著的性能提升,運行速度也更快,幀率達到200fps后很多應(yīng)用都可以實時顯示,推動更多智能應(yīng)用落地指日可待。”(雍 黎)
上一條:技術(shù)賦能3Glasses打破虛擬與現(xiàn)實邊界 下一條:零售業(yè):創(chuàng)新推動行業(yè)加速“進化”
【關(guān)閉】