Yuto Matsuda
2023-09-14CVLチーム
京都大学情報学研究科 修士1年の松田有登です.8月7日から9月15日の6週間、LINE DSC(データサイエンスセンター)のComputer Vision Lab (CVL) Virtual Human Lab (VHL)チームでインターンシップに参加させていただきました。今回私が取り組んだ手の動きを含めた動作生成についてご紹介します。
背景
動作生成モデルは、アクションラベルや言語、音楽などを入力したときに、それに対応した動作、行動を出力するモデルです。既存の動作生成モデルには、Variational Autoencoder (VAE)のEncoder、Decoderに正解ラベルを付与したConditional Variational Autoencoder (CVAE)を用いて、動作の種類を示すラベルによる条件付き動作生成を行なったACTOR[1]や、Diffusion modelベースでtext-to-motionやaction-to-motionなどのタスクをこなすMLD[2]などが挙げられます。しかし、いずれのモデルにおいても手の動き・動作は考慮されておらず、常に手