2025年中國高校國際青年學(xué)者論壇
首頁 > 科研動態(tài)
關(guān)注我們
學(xué)術(shù)橋-訂閱號
學(xué)術(shù)橋-小程序
視覺人體姿態(tài)估計研究取得進(jìn)展

  2D人體姿態(tài)估計是一項面向人體對象的基礎(chǔ)視覺感知任務(wù),旨在通過圖像或視頻精準(zhǔn)定位人體姿態(tài)關(guān)鍵點(diǎn)位置,為理解人體運(yùn)動和行為提供結(jié)構(gòu)化數(shù)據(jù)。然而,現(xiàn)有方法在復(fù)雜場景下難以兼顧空間定位準(zhǔn)確性與時間運(yùn)動連貫性,尤其在視頻中如何保持姿態(tài)估計的穩(wěn)定性是一大挑戰(zhàn)。同時,在獲得2D人體關(guān)鍵點(diǎn)基礎(chǔ)上,3D人體姿態(tài)估計致力于恢復(fù)人體關(guān)鍵點(diǎn)在三維空間中的位置,這一技術(shù)在虛擬現(xiàn)實、運(yùn)動分析、人機(jī)交互等領(lǐng)域具有廣泛應(yīng)用。然而,這一過程面臨“深度模糊”等固有挑戰(zhàn),即同一組2D關(guān)鍵點(diǎn)或?qū)?yīng)多個合理的3D姿態(tài)。目前,基于擴(kuò)散生成式框架的方法一定程度上緩解了這一問題,但由于模型缺乏對人體外觀輪廓、語義理解等方面的認(rèn)識,導(dǎo)致在預(yù)測中生成不合理的姿態(tài),這一問題在遮擋嚴(yán)重或人群密集等復(fù)雜場景下較為突出。

  近日,中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所研究團(tuán)隊,在視覺人體姿態(tài)估計研究中取得進(jìn)展。團(tuán)隊圍繞2D及3D人體姿態(tài)估計兩項任務(wù),分別提出了創(chuàng)新方法。相關(guān)研究成果發(fā)表在IEEE Transactions on Circuits and Systems for Video Technology和IEEE Transactions on Multimedia上。

  團(tuán)隊提出了高效的層次化對比一致性約束(HICCON),其可靈活嵌入多種姿態(tài)估計模型中,提升2D姿態(tài)估計性能。該方法在空間域上捕捉建模關(guān)鍵點(diǎn)與身體部件之間的關(guān)系,在時間域上捕捉幀與片段之間的運(yùn)動模式。同時,HICCON可分別從空間與時間兩個維度,提取關(guān)鍵點(diǎn)級、部件關(guān)系級、實例級及片段級等不同粒度多層次特征,并施加對比學(xué)習(xí)約束,增強(qiáng)模型對復(fù)雜姿態(tài)的判別能力。實驗表明,在主流視頻姿態(tài)數(shù)據(jù)集PoseTrack上,結(jié)合HICCON的多個模型均超過基準(zhǔn)性能,且該方法表明了對比學(xué)習(xí)機(jī)制在人體視覺表征建模中的應(yīng)用潛力和重要作用。

  團(tuán)隊進(jìn)一步提出了MMCPose模型,將多模態(tài)人體先驗作為條件信號,引導(dǎo)擴(kuò)散過程生成合理且準(zhǔn)確的3D姿態(tài)。該模型融合了人體關(guān)節(jié)拓?fù)潢P(guān)系、基于自然語言的部件描述、提升姿態(tài)關(guān)注度的人體掩碼三類結(jié)構(gòu)化信息。為更好地發(fā)揮多模態(tài)條件的引導(dǎo)作用,團(tuán)隊設(shè)計了多模態(tài)表征—姿態(tài)交互機(jī)制,實現(xiàn)引導(dǎo)信號與生成過程之間的深度交互,從而提升模型在姿態(tài)建模上的感知能力與生成質(zhì)量。在Human3.6M和MPI-INF-3DHP等基準(zhǔn)集上的測試表明,MMCPose取得了領(lǐng)先性能,特別是在Human3.6M上,將平均誤差降至30.8毫米。該方法說明,多模態(tài)引導(dǎo)及人體先驗知識對解決三維人體視覺感知任務(wù)具有關(guān)鍵作用。

  研究工作得到科技創(chuàng)新2030重大項目、上海市自然科學(xué)基金等的支持。

  

在Human3.6M數(shù)據(jù)集上,MMCPose達(dá)到了最優(yōu)性能

 

延伸閱讀
特別聲明:本文轉(zhuǎn)載僅僅是出于傳播信息的需要,并不意味著代表本網(wǎng)站觀點(diǎn)或證實其內(nèi)容的真實性。
如果作者不希望被轉(zhuǎn)載,請與我們聯(lián)系。
掃碼關(guān)注學(xué)術(shù)橋
關(guān)注人才和科研