映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2024-02-19 13:45
Efficient Human Pose and Shape Estimation using Decomposed Manhattan Self-Attention
Yushan WangBotao ZhangTMU)・Shuhei TarashimaNTT Com)・Norio TagawaTMU
抄録 (和) (まだ登録されていません) 
(英) HMR2.0, a high performance human pose and shape estimation algorithm, leverages ViT as its backbone and uses pretrained weights that has learned spatial relationships, leads to high number of parameters and complexity. Our goal is to significantly reduce both parameters and model complexity while preserving the model's expressive capability to a considerable extent. We replace the ViT backbone with spatial decay matrix and proposed decomposed manhattan-attention based architecture, which characterized by its linear complexity. We mix the typical datasets for training with different weights as in HMR2.0, i.e., Human3.6M 0.1, MPI-INF3DHP 0.02, COCO 0.2, MPII 0.1, InstaVariety 0.2, AVA 0.19 and AI Challenger 0.19. We compare the parameters and FLOPs between HMR2.0 and our proposed Decomposed Manhattan Self-Attention based linear complexity structure. Experimental results show that we reduce FLOPs from 242.1G to 17.5G. In terms of qualitative comparison, the adoption of linear complexity led to inferior results compared to the HMR2.0. This outcome was anticipated as, in HMR2.0, to attain optimal results, pre-training weights based on ImageNet were initially employed. However, due to modifications of linear complexity in our network structure, the use of the original pre-trained weights became impractical, necessitating a complete restart of training from scratch.
キーワード (和) / / / / / / /  
(英) Pose and Shape Estimation / ViT / HMR2.0 / Linear Complexity / / / /  
文献情報 映情学技報, vol. 48, no. 6, ME2024-25, pp. 44-48, 2024年2月.
資料番号 ME2024-25 
発行日 2024-02-12 (MMS, ME, AIT) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 IEICE-ITS IEICE-IE ME AIT MMS  
開催期間 2024-02-19 - 2024-02-20 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理、一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 ME 
会議コード 2024-02-ITS-IE-ME-AIT-MMS 
本文の言語 英語 
タイトル(和)  
サブタイトル(和)  
タイトル(英) Efficient Human Pose and Shape Estimation using Decomposed Manhattan Self-Attention 
サブタイトル(英)  
キーワード(1)(和/英) / Pose and Shape Estimation  
キーワード(2)(和/英) / ViT  
キーワード(3)(和/英) / HMR2.0  
キーワード(4)(和/英) / Linear Complexity  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 王 宇珊 / Yushan Wang / オウ ウサン
第1著者 所属(和/英) 東京都立大学 (略称: 都立大)
Tokyo Metropolitan University (略称: TMU)
第2著者 氏名(和/英/ヨミ) 張 柏韜 / Botao Zhang / チョウ ハクトウ
第2著者 所属(和/英) 東京都立大学 (略称: 都立大)
Tokyo Metropolitan University (略称: TMU)
第3著者 氏名(和/英/ヨミ) 田良島 周平 / Shuhei Tarashima / タラシマ シュヘイ
第3著者 所属(和/英) NTT コミュニケーションズ (略称: NTTコム)
NTT Communications Corporation (略称: NTT Com)
第4著者 氏名(和/英/ヨミ) 田川 憲男 / Norio Tagawa / タガワ ノリオ
第4著者 所属(和/英) 東京都立大学 (略称: 都立大)
Tokyo Metropolitan University (略称: TMU)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2024-02-19 13:45:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2024-9, ME2024-25, AIT2024-9 
巻番号(vol) vol.48 
号番号(no) no.6 
ページ範囲 pp.44-48 
ページ数
発行日 2024-02-12 (MMS, ME, AIT) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会