カテゴリー
研究

ファッションドメインにおける画像からのピクセルアート生成に向けて

2025年9月16日~18日に開催された「第181回DBS・第160回IFAT合同研究発表会」において、修士2年の入江匠が、「ファッションドメインにおける画像からのピクセルアート生成に向けて」の研究発表を行いました。

  • 入江匠, 横山 大作, ファッションドメインにおける画像からのピクセルアート生成に向けて, 第181回DBS・第160回IFAT合同研究発表会, 2025.9.17,(PDF)

研究背景・目的

ピクセルアートは、限られた解像度や色数で視覚情報を表現するデジタルアートの一形式で、ゲームやアバター、NFTアートなどに幅広く活用されています。とくにファッション分野では、衣服の形や色、模様といったスタイリングの要素を象徴的に伝えられるため、アバター生成やデジタルファッションにおける応用が期待されています。

実写画像をピクセルアートに変換する最も単純な方法は、解像度を直接下げる「ダウンサンプリング」です。しかしこの方法では、小物のような細かい特徴や衣服の複雑なパターンが失われてしまうという課題がありました。そこで本研究では、「複雑な模様や細かな特徴を効果的にデフォルメしつつ、元の特徴をできるだけ保ったまま、実写画像をピクセルアートに変換する方法」の実現を目指しました。

ダウンサンプリングによるピクセルアート生成例

提案手法

本研究では、事前学習済みの大規模なtext-to-imageモデルである Stable Diffusion を用いた Score Distillation Sampling (SDS) に基づく生成手法(SD-πXL)をベースとしました。この手法は、入力した実写画像をテキストプロンプトに整合するように少しずつ修正していく仕組みを持っており、その過程を利用してピクセルアートを生成することが可能です。
しかし、この手法で最適化を続けすぎると、元の服の特徴が壊れてしまうという課題があるため、生成過程を途中で停止する「早期停止戦略」を導入しました。具体的には以下を検討しました。

  • 固定ステップ数で停止する方法:予め決めたステップ数で停止
  • 見た目の差に基づいて停止する方法:入力画像と出力画像の見た目の差(L2ノルム)が大きくなる前に停止
  • 意味的な差に基づいて停止する方法:CLIPやDINOv2の画像エンコーダを用いて、入力画像と出力画像の意味的な類似度を測り、それが最大となる時点で停止
提案手法の概略図

実験

Fashionpedia データセットから選んだ30枚の実写ファッション画像を用いて、提案した停止戦略を比較しました。

その結果、「固定ステップ数で停止する方法」や「見た目の差に基づいて停止する方法」が比較的うまくいくことが分かりました。一方で、「意味的な差に基づいて停止する方法」は、部分的にはうまく特徴を捉えられても、全体的には適切な停止タイミングを見極めにくいことが分かりました。

提案手法によるピクセルアート生成例

まとめ

本研究では、「複雑な模様や細かな特徴を効果的にデフォルメしつつ、元の特徴をできるだけ保ったまま、実写画像をピクセルアートに変換する方法」を検討しました。提案したSD-πXLに基づくSDS早期停止が有効な手法になり得ることが分かりました。
今後は、テストデータ数を増やし、より多様な条件下での評価を通じて手法の有効性をより精緻に検証する必要があります。また、服や小物などのパーツごとに「どこを重視すべきか」や「特徴が維持できているか」を考慮できれば、さらに質の高いピクセルアートを生成できる可能性があると考えています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です