Day06 3D Pose Baseline(2D資訊預測3Dz軸資訊)


Day06 3D Pose Baseline(2D資訊預測3Dz軸資訊)

前言


從Openpose得到的2D資訊,經由3D Pose Baseline這個模型可以預測出z軸,也就景深的資訊,比起直接從2D的x,y資訊,多了一個可以在之後將3D模型套入位置資訊時

內容

翻譯原文:
"A simple yet effective baseline for 3d human pose estimation", 4 Aug 2017, arXiv:1705.03098v2 [cs.CV]

0. 摘要

繼深層卷積網絡的成功之後,用於3D人體姿勢估計的最新方法已集中於深層端到端系統,這些系統可在給定原始圖像像素的情況下預測3D關節位置。 儘管它們具有出色的性能,但通常很難理解其剩餘錯誤是由於有限的2D姿勢(視覺)理解還是由於未能將2D姿勢映射到3維位置而引起的。

為了理解這些錯誤源,我們著手建立一個系統,該系統可以根據2d關節位置預測3d位置。 令我們驚訝的是,我們發現,採用當前技術,將地面2D關節真實位置“提升”到3D空間是一項可以以極低的錯誤率解決的任務:相對簡單的深層前饋網絡的性能優於最佳報告結果 在Human3.6M(最大的公開3d姿態估計基準)上大約減少了30%。 此外,在現成的2D檢測器的輸出上訓練我們的系統(即使用圖像作為輸入)會產生最新的結果-這包括一系列經過訓練的系統 -專門為此任務結束。 我們的結果表明,現代深層3d姿態估計系統的大部分誤差源於其視覺分析,並提出了進一步推進3d人體姿態估計技術水平的方向。

1. 介紹

現有的絕大多數人類描述都是二維的,例如 錄像,圖像或繪畫。 傳統上,這些表示在向他人傳達事實,思想和感受方面發揮了重要作用,而這種傳遞信息的方式只有在人類能夠理解深度歧義性的情況下才能夠理解複雜的空間佈置,才有可能。 對於包括虛擬現實和增強現實,服裝尺寸估計乃至自動駕駛在內的大量應用而言,為機器提供這種空間推理能力至關重要。 在本文中,我們將重點介紹這種空間推理問題的一個特定實例:從單個圖像進行3d人體姿勢估計。

更正式地說,給定人類的圖像(二維表示),3d姿態估計是生成與所描繪的人的空間位置匹配的3維圖形的任務。 為了從圖像變為3d姿勢,算法必須對許多因素保持不變,這些因素包括背景場景,照明,衣服形狀和質地,皮膚顏色和圖像瑕疵等。 早期方法通過輪廓[1],形狀上下文[28],SIFT描述子[6]或邊緣方向直方圖[40]等功能實現了這種不變性。 雖然目前需要大量數據的深度學習系統在諸如2D姿態估計(這也需要這些不變性)等任務上勝過基於人類工程特徵的方法,但由於缺乏野外圖像的3D地面真相姿勢數據,因此難以推斷3D 直接從具有挑戰性的彩色圖像中構成姿勢。

最近,一些系統探索了從具有端到端深度架構的圖像中直接推斷3d姿勢的可能性[33,45],而其他系統則認為,可以通過對合成數據進行訓練來實現從彩色圖像中進行3d推理[38, 48]。 在本文中,我們探索將3d姿態估計解耦到深入研究的2d姿態估計[30,50]和2d聯合檢測的3d姿態估計問題中的能力,重點是後者。 將姿勢估計分為這兩個問題,使我們可以利用現有的2d姿勢估計系統,該系統已經為上述因素提供了不變性。 此外,我們可以在受控環境中捕獲大量3d mocap數據的同時,解決2d至3d問題的數據飢渴算法,同時使用可以很好地縮放大量數據的低維表示形式。

我們對這個問題的主要貢獻是神經網絡的設計和分析,該神經網絡的性能比最新系統稍好(當對檢測進行微調時,它的餘量會增加),或者是快速(向前) pass在64位大小的批處理上大約需要3毫秒,因此我們可以在批處理模式下處理高達300 fps的幀),同時易於理解和重現。 這種準確性和性能飛躍的主要原因是一套簡單的方法。
例如在相機坐標系中估計3D關節,添加殘差連接以及使用批處理歸一化。 由於網絡的簡單性,這些想法可以與其他不成功的想法一起快速測試(例如,估計關節角度)。

實驗表明,在現有的最大3d姿態數據集上,可以通過出人意料的低錯誤率(比最新技術水平低30%)來解決從地面真實2d投影推斷3d關節的問題。 此外,對來自最新2d關鍵點檢測器的嘈雜輸出進行訓練的系統產生的結果略勝於來自系統的3d人體姿勢估計的最新技術
從原始像素端到端進行訓練。

我們的工作在使用Human3.6M中的無噪聲2d檢測的同時,還使用了更簡單的體系結構,大大改善了以前最好的2d至3d姿態估計結果。 這表明,提升2D姿勢雖然遠未解決,但比以前想像的要容易。 由於我們的工作還從現成的2d檢測器的輸出開始獲得了最先進的結果,因此它還表明,可以通過關注2d圖像中人體的視覺解析來進一步改善當前系統。 此外,我們提供並發布了高性能,輕量級且易於重現的基準,為該任務的未來工作設定了新的標準。 我們的開源代碼在https://github.com/una-dinosauria/3d-pose-baseline

2. 前置作業

圖像深度 至少從文藝復興時期開始,純粹的2D刺激對深度的感知是一個吸引了科學家和藝術家注意的經典問題,當時布魯內萊斯基使用數學的視角概念在他的佛羅倫薩建築繪畫中傳達了空間感。

幾個世紀後,在計算機視覺中已經採用了類似的透視線索來推斷任意場景中的長度,面積和距離比[57]。 除了透視信息之外,經典的計算機視覺系統還嘗試使用其他提示(例如陰影[53]或紋理[25])從單個圖像恢復深度。 現代系統[12,26,34,39]通常是從監督學習的角度解決這個問題,讓系統推斷哪些圖像特徵對於深度估計最有區別。

自上而下的3d推理 深度估計的首批算法之一採用了不同的方法:利用場景中對象的已知3d結構[37]。 已經顯示,當感知到抽象為一組稀疏點投影的人類運動時,人類也會使用這種自上而下的信息[8]。 通過最小化表示(例如稀疏的2d投影)推理3d人的姿勢的想法,抽像出了其他可能更豐富的圖像提示,啟發了我們在本工作中要解決的2d關節的3d姿勢估計問題。

2d到3d關節 從其2d投影推斷3d關節的問題可以追溯到Lee和Chen的經典著作[23]。他們表明,給定骨頭的長度,問題可以歸結為一個二叉決策樹,其中每個拆分對應於相對於其父對象的關節的兩個可能狀態。可以基於聯合約束脩剪此二叉樹,儘管很少會導致
在一個解決方案中。 Jiang [20]使用了一個龐大的姿勢數據庫來根據最近鄰查詢解決歧義。有趣的是,Gupta等人最近重新考慮了利用最近的鄰居來完善姿勢推斷的結果。 [14],他們在搜索過程中納入了時間約束,由Chen和Ramanan [9]提出。從數據集中彙編有關3d人體姿勢的知識的另一種方法是,通過創建適合於將人體姿勢表示為稀疏組合的過完整基礎[2、7、36、49、55、56],將姿勢提升到可再現的內核希爾伯特空間(RHKS) [18]或通過從極端人類姿勢的專門數據集中創建新穎的先驗[2]。

基於深網的2d到3d關節我們的系統與最近的工作最相關,後者使用深度神經網絡學習2d和3d之間的映射。 Pavlakos等。 [33]介紹了一種基於堆疊沙漏體系結構的深層卷積神經網絡[30],該模型不是回歸2d聯合概率熱圖,而是映射到3d空間中的概率分佈。 Moreno-Noguer [27]學會從二維到三維空間預測成對距離矩陣(DM)。 距離矩陣在旋轉,平移和反射之前不變。 因此,多維縮放與人類姿勢先驗相輔相成[2],以排除不太可能的預測。

Moreno-Noguer DM回歸方法以及Pavlakos等人的體積方法背後的主要動機是,從2d檢測中預測3d關鍵點固有地困難。 例如,Pavlakos等。 [33]提出了一個基準,在其中使用了直接3D關節表示(例如[我們的])([33]中的表1),其準確度遠低於使用體積回歸1。我們的工作與從2D關節回歸3d關鍵點的想法相矛盾。 應該避免直接進行檢測,這表明設計合理且簡單的網絡在2d到3d關鍵點回歸的任務中可以具有相當的競爭力。

2d到3d角度姿勢還有第二種算法,可以從圖像中推斷3d姿勢,這些圖像根據角度(有時是身體形狀)估算身體構造,而不是直接估算關節的3d位置[4,7,31, 54]。 這些方法的主要優點是,由於人體關節的活動性受到限制,因此問題的維度較低,並且所得出的估計值被迫具有類似人的結構。 而且,用這種表示法來限制諸如骨頭長度或關節角度範圍之類的人類特性相當簡單[51]。 我們還嘗試了這種方法。 但是,根據我們的經驗,關節和2d點之間的高度非線性映射使學習和推理變得更加困難,並且計算成本也更高。 因此,我們選擇直接估計3d關節。

3. 解決方法

我們的目標是在給定二維輸入的情況下估計3維空間中的人體關節位置。 形式上,我們的輸入是一系列2d點x∈R2n,我們的輸出是3d空間y∈R3n中的一系列點。 我們旨在學習一個函數f ∗:R2n→R3n,它使N個姿勢的數據集的預測誤差最小:

實際上,可以在已知的攝像機參數下或使用2d關節檢測器將xi作為地面真實2d關節位置獲得。 相對於其根關節,相對於固定的全局空間預測3d位置也是常見的,這會導致尺寸較小的輸出。

我們專注於f* 是深層神經網絡的系統,並努力尋找一種可以很好地完成此任務的簡單,可擴展和高效的體系結構。 這些目標是我們網絡設計選擇背後的主要原理。

3.1 我們的方法-網絡設計

圖1顯示了具有我們架構的基本構建塊的圖。 我們的方法基於簡單的,深度的,多層神經網絡,具有批處理歸一化[17],輟學[44]和整流線性單位(RELU)[29],以及殘差連接[16]。 沒有描述兩個額外的線性層:一個直接應用於輸入,將其維數增加到1024,另一個應用於最終預測,然後生成大小為3n的輸出。 在大多數實驗中,我們使用2個殘差塊,這意味著我們總共有6個線性層,並且我們的模型包含4到5百萬個可訓練參數。

我們的架構得益於深度神經網絡優化方面的多個相對較新的改進,這些改進主要出現在非常深的捲積神經網絡的上下文中,並且已成為提交給ILSVRC的最新系統的關鍵要素(Imagenet [10])基準。 正如我們證明的那樣,這些貢獻也可以用於改善2d至3d姿態估計任務的概括性。

2d / 3d位置 與最近使用原始圖[11,13,24,32,33,45,46,54,56]或 2d概率分佈[33、56]作為輸入,3d概率[33],3d運動參數[54]或基本姿態係數和相機參數估計[2、7、36、55、56]作為輸出。 儘管二維檢測攜帶的信息較少,但二維檢測的低維度使其非常吸引人。 例如,在訓練網絡時,可以輕鬆地將整個Human3.6M數據集存儲在GPU中,這減少了整體訓練時間,並極大地使我們能夠加快了對網絡設計和訓練超參數的搜索。

線性RELU層大多數用於3d人體姿勢估計的深度學習方法都是基於卷積神經網絡,該算法學習可應用於整個圖像[13、24、32、33、45]或二維關節的平移不變濾波器。 位置熱圖[33,56]。 但是,由於我們將低維點作為輸入和輸出處理,因此我們可以使用更簡單且計算成本更低的線性層。 RELU [29]是在深度神經網絡中添加非線性的標準選擇。

殘差連接 我們發現殘差連接是最近提出的一種技術,可用於訓練非常深的捲積神經網絡[16],可提高泛化性能並減少訓練時間。 在我們的案例中,他們幫助我們將錯誤率降低了約10%。

批次歸一化和丟棄法儘管在地面真實2d位置上進行訓練時,具有上述三個組件的簡單網絡在2d至3d姿態估計上可獲得良好的性能,但我們發現,在2d的輸出上進行訓練時,其效果不佳 探測器,或在2D地面真相上訓練並在2D嘈雜的觀測中測試時。 在這兩種情況下,批處理規範化[17]和輟學[44]改善了我們系統的性能,同時導致訓練和測試時間略有增加。

最大範數約束我們還對每層的權重施加了約束,以使它們的最大範數小於或等於1。結合批歸一化,我們發現當訓練和測試之間的分佈不同時,這可以穩定訓練並提高泛化能力。

3.2 數據預處理

我們通過減去平均值並除以標準偏差,將標準歸一化應用於2d輸入和3d輸出。 由於我們無法預測3d預測的全局位置,因此我們將髖關節周圍的3d姿勢定為零中心(與以前的工作和Human3.6M的標準協議一致)。

相機坐標在我們看來,期望算法推斷任意坐標空間中的3d關節位置是不現實的,因為這種空間的任何平移或旋轉都不會導致輸入數據的變化。 全局坐標系的自然選擇是攝像機框架[11、24、33、46、54、56],因為這使不同攝像機之間的2d到3d問題相似,隱含地使每個攝像機具有更多的訓練數據,並防止過分適合特定情況 全局坐標系。 我們通過根據相機的逆變換旋轉和平移3d地面真相來實現此目的。 推斷任意全局坐標系中的3d姿勢的直接效果是無法回歸人的全局方位,這會導致所有關節出現較大誤差。 請注意,此坐標系的定義是任意的,並不意味著我們在測試中使用姿勢基礎事實。

2d檢測我們使用Newell等人的最新堆疊沙漏網絡獲得2d檢測。 [30],在MPII數據集[3]上進行了預訓練。 與先前的工作[19、24、27、32、46]相似,我們使用H3.6M隨附的邊界框來估計圖像中人的中心。 我們在此計算中心周圍裁剪一個大小為440×440像素的正方形到檢測器(然後通過堆疊的沙漏將其調整為256×256)。 這些檢測與地面真實2d地標之間的平均誤差為15個像素,略高於Moreno-Noguer [27]使用CPM [50]在同一數據集上報告的10個像素。 與(CPM)相比,我們更喜歡使用堆疊式沙漏,因為(a)在MPII數據集上顯示的結果略好,並且(b)評估速度大約快10倍,這使我們能夠計算整個H3.6M數據集的檢測結果。

我們還對Human3.6M數據集(最初在MPII上進行了預訓練)上的堆疊沙漏模型進行了微調,該模型在目標數據集上獲得了更準確的2d聯合檢測,並進一步減少了3d姿態估計誤差。 我們使用了堆疊沙漏的所有默認參數,但由於GPU內存的限制,我們將最小批量大小從6減少到3。 我們將學習率設置為2.5×10−4,並進行40 000次迭代訓練。

訓練細節我們使用Adam [21]訓練我們的網絡200個紀元,起始學習率為0.001,並使用大小為64的小批處理進行指數衰減。最初,我們使用Kaiming初始化[15]設置線性層的權重。 我們使用Tensorflow實現了我們的代碼,在Titan Xp GPU上向前/向後傳遞大約需要5ms,向前傳遞大約需要2ms。 這意味著,加上最先進的實時2d檢測器(例如[50]),我們的網絡可以成為實時運行的全像素到3d系統的一部分。

整個Human3.6M數據集的訓練時間大約為2分鐘,這使我們能夠廣泛嘗試各種架構變化和訓練超參數。

4. 實驗評估

數據集和紀錄 我們將數值評估的重點放在用於3d人體姿勢估計的兩個標準數據集上:HumanEva [42]和Human3.6M [19]。 我們還在MPII數據集[3]上顯示了定性結果,對於這些數據,地面真實性3d不可用。

據我們所知,Human3.6M是目前用於人類3d姿態估計的最大的公開可用數據集。 該數據集包含360萬張圖像,其中包含7位專業演員的15個日常活動,如散步,吃飯,坐下,打電話和進行討論。 提供2d關節位置和3d地面真相位置,以及所有演員的投影(相機)參數和身體比例。 另一方面,HumanEva是一個較小的數據集,在過去十年中已廣泛用於基準化以前的工作。 MPII是基於數千個短youtube視頻的2d人體姿勢估計的標準數據集。

在Human3.6M上,我們遵循標準協議,使用對象1、5、6、7和8進行訓練,使用對象9和11進行評估。 在報告了根部(中央髖關節)對齊之後,我們報告了所有關節和攝像機的地面真實情況與我們的預測之間以毫米為單位的平均誤差。 通常,培訓和測試是在每個動作中獨立進行的。 我們將此稱為協議1。 但是,在我們的某些基準中,通過嚴格的變換(例如[7,27]),該預測已與地面實況進一步吻合。 我們將此後處理協議稱為#2。 類似地,與建立特定於動作的模型相反,一些最近的方法已經針對所有動作訓練了一個模型。 我們發現這種做法可以持續改善結果,因此我們在這兩種變化下報告了我們方法的結果。 在HumanEva中,對所有主題和每個動作分別進行訓練和測試,並且總是在嚴格轉換後計算誤差。

4.1 定量結果

2d到3d回歸的上限 我們的方法基於2d關節位置的直接回歸,自然取決於2d姿態檢測器的輸出質量,並且在使用地面真實的2d關節位置時達到最佳性能 。

我們遵循了Moreno-Noguer [27],並在不同水平的高斯噪聲下測試了最初使用2D地面實況訓練的系統。 結果可在表1中找到。對於所有級別的噪聲,我們的方法在性能上均遠勝於距離矩陣方法[27],並且在基於地面真實2d投影進行訓練時,可實現37.10 mm的誤差峰值性能。 這比我們在地面真相二維關節上報導的最佳結果要好約43%[27]。 此外,請注意,此結果也比Pavlakos等人報導的51.9 mm好約30%。 [33],這是我們意識到的Human3.6M上的最佳結果–但是,他們的結果沒有使用地面真實2d位置,這使得這種比較是不公平的。

儘管每個幀都是獨立評估的,並且我們沒有利用時間,但是我們注意到,我們的網絡所產生的預測是相當平滑的。 可以在以下位置找到具有這些和更多定性結果的視頻:https://youtu.be/Hmi3Pd9x1BE。

檢測器噪聲的壯健性 為了進一步分析我們方法的壯健性,我們還嘗試了對系統(總是在2d地面真實情況下進行訓練)的2d噪聲檢測。 這些結果也記錄在表1.2的底部。在這種情況下,我們的性能也優於以前的工作,並證明了在對地面真實情況進行訓練並在2d探測器的輸出上進行測試時,我們的網絡可以表現良好。

二維檢測的訓練雖然在火車和測試時間使用二維地面真相來表徵我們的網絡性能很有趣,但在實際應用中,我們的系統必須與二維檢測器的輸出配合使用。 我們在表2中報告了有關Human3.6M協議#1的結果。在這裡,我們最接近的競爭對手是Pavlakos等人的最新體積預測方法。 [33],它使用了一個堆疊的沙漏架構,在Human3.6M上進行了端到端的培訓,並為所有動作使用了一個單一的模型。 即使使用開箱即用的堆疊沙漏檢測,我們的方法也比最先進的結果好4.4 mm;當在H3上對2d檢測器進行微調時,我們的方法將差距擴大到9.0 mm,是原來的兩倍。 6M。 我們的方法在H360M的15個動作中,除了15個動作中的所有動作之外,還始終優於以前的工作。

表3顯示了我們在協議2下使用Human3.6M的結果(使用與地面真實情況進行嚴格的比對)。儘管我們的方法比以前的開箱即用檢測方法稍差一些,但在以下情況下首先出現 我們使用微調的檢測。

最後,我們在表4中報告了HumanEva數據集的結果。在這種情況下,我們獲得了迄今為止6例中的3例的最佳結果,並且總體上來說,慢跑和步行動作的最佳平均誤差最大。 由於此數據集很小,並且相同的主題出現在訓練和測試集中,因此我們認為這些結果不如通過Human3.6M中的方法獲得的結果重要。

消融和超參數分析 我們還進行了消融分析,以更好地了解網絡設計選擇的影響。 以我們的非精細調整MA模型為基礎,我們在表5中列出了這些結果。去除壓差或批次歸一化會導致誤差增加3到8毫米,而殘餘連接將使我們的結果增加約8毫米 。 但是,如果不以相機坐標對網絡中的數據進行預處理,則會導致100毫米以上的誤差-嚴重低於最新技術的性能。

最後但並非最不重要的一點是,我們分析了網絡對深度和寬度的敏感性。 使用單個殘餘塊會導致6毫米的損失,並且在2個塊後性能達到飽和。 根據經驗,我們發現將圖層減小到512尺寸會降低性能,而具有2 048個單位的圖層則要慢得多,並且似乎並沒有提高準確性。

4.2 定性結果

最後,我們在圖2中顯示了Human3.6M的定性結果,在圖3中顯示了來自MPII測試集的“野外”圖像。我們在MPII上的結果揭示了我們方法的某些局限性; 例如,我們的系統無法從失敗的探測器輸出中恢復,並且很難處理與H3.6M中的任何示例都不相似的姿勢(例如顛倒的人)。 最後,在野外,大多數人的圖像沒有完整的身體,但是在一定程度上被裁剪了。 我們的系統已接受全身姿勢訓練,目前無法處理此類情況。

5. 討論

從表2可以看出,使用SH檢測進行訓練時的誤差普遍增加,而不是在所有動作中使用地面真實情況2d進行訓練,這是人們所期望的。 但是,拍照,打電話,坐下坐下的班級特別多。 我們假設這是由於這些動作中的嚴重自我遮擋所致–例如,在某些電話序列中,我們從未看到演員的一隻手。 類似地,在坐下和坐下時,腿通常與攝像機視點對齊,這導致大量的縮短。

進一步的改進我們系統的簡單性提出了未來工作的多個改進方向。例如,我們注意到,堆疊的沙漏會生成尺寸為64×64的最終聯合檢測熱圖,因此,更大的輸出分辨率可能會導致更細粒度的檢測,從而使我們的系統在接受地面實況訓練時更加接近其性能。另一個有趣的方向是使用來自二維堆疊沙漏熱圖的多個樣本來估計預期的梯度(通常在強化學習中使用的“ la”策略梯度),以便端對端地訓練網絡。另一個想法是使用3維Mocap數據庫和“假”相機參數來模擬2D檢測器的輸出以進行數據增強,這也許是Shrivastava等人的對抗方法。 [41]。學習連貫地估計場景中每個人的深度是一條有趣的研究路徑,因為這將使我們的系統能夠對多個人的3d姿勢進行估計。最後,我們的架構很簡單,對網絡設計的進一步研究可能會在2d到3d系統上產生更好的結果。

5.1 結果的含義

我們已經證明,相對簡單的深度前饋神經網絡可以在3d人體姿勢估計上實現極低的錯誤率。 結合最先進的2d檢測器,我們的系統迄今在3d姿態估計上獲得了最佳結果。

我們的結果與最近的工作形成鮮明對比,後者的工作重點是從像素到3d位置訓練的深度,端到端系統,並且與基本的假設相矛盾,這些假設證明了最新的3d人類技術的複雜性是正確的姿勢估計。例如,[33]等人的體積回歸方法。基於這樣的假設:直接回歸3d點本來就很困難,而在體積空間中回歸將為網絡提供更容易的漸變(請參見[33]中的表1)。儘管我們同意圖像內容應有助於解決具有挑戰性的歧義情況(例如,考慮經典的轉彎芭蕾舞女演員的光學錯覺),但可以使用簡單的高容量系統從2d點獲得具有競爭力的3d姿勢估計。這可能與人們可以感知的有關二維關節刺激中存在的細微身體和運動特徵(例如性別)的潛在信息有關。類似地,在[27]中使用距離矩陣作為人體表示是有理由的主張,即不變的,人為設計的特徵應提高系統的準確性。但是,我們的結果表明,訓練有素的系統可以簡單方式勝過這些特定功能。有趣的是,關節距離和關節位置的組合是否會進一步提高性能-我們將其留待以後的工作。

總結

我們已經證明,簡單,快速和輕量級的深度神經網絡可以在2d至3d人體姿勢估計任務中獲得令人驚訝的準確結果。 並與最先進的2d檢測器相結合,我們的工作產生了易於重現但高性能的基線,該基線優於3d人體姿勢估計中的最新技術。

我們從2d真實值進行3d姿態估計的準確性表明,儘管2d姿態估計被認為是已解決的問題,但它仍然是3d人類姿態估計任務中導致錯誤的主要原因之一。 此外,我們的工作以簡單的2d和3d坐標表示姿態,這表明發現人體的不變(和更複雜)表示像以前一樣。
最近工作的重點可能不是至關重要的,或者尚未被充分利用。

最後,鑑於其簡單性以及該領域的快速發展,我們希望將我們的工作視為未來的基準,而不是用於3d姿態估計的完整系統。 這表明了未來工作的多個方向。 首先,我們的網絡目前無法獲得視覺證據; 我們相信,通過對2d檢測進行微調或通過多傳感器融合將這些信息添加到我們的管道中,將會進一步提高性能。 另一方面,我們的體系結構類似於多層感知器,這也許是人們可能想到的最簡單的體系結構。 我們認為,對網絡體系結構的進一步探索將提高性能。 這些都是未來工作的有趣領域。

參考資料

"A simple yet effective baseline for 3d human pose estimation", 4 Aug 2017, arXiv:1705.03098v2 [cs.CV]

#3d pose baseline #Deep Learning #Computer Vision #Human Pose Estimation #AI
深度學習中影像辨識技術用於捕捉人體動作姿態,所用到的一些技術原理還有應用模型方法,其中包含VGGNet, 物件偵測YOLOv3, 姿態Openpose, Pose Proposal Networks, 3D pose baseline; 再加上應用在3D動畫會用到的技術: MMD






Related Posts

每日心得筆記 2020-07-02(四)

每日心得筆記 2020-07-02(四)

Python Table Manners - 虛擬環境和套件管理

Python Table Manners - 虛擬環境和套件管理

一起來了解 Web Authentication

一起來了解 Web Authentication

實作NLog_專案Console

實作NLog_專案Console

[MTR04] W2 D10 Array 內建函式及 console.log / return 的差異

[MTR04] W2 D10 Array 內建函式及 console.log / return 的差異

JS 展開  (Spread Operator) 以及反向展開 (Rest Parameters)

JS 展開 (Spread Operator) 以及反向展開 (Rest Parameters)



Comments