MENU

PRX Part 3徹底解説|画像生成AI学習を24時間$1500で実現するレシピ

クイックサマリー: Stable Diffusionの学習に数百万ドルかかった時代と比べたい人にPRX Part 3は最適です。逆に「すぐ画像を生成したいだけ」の方は、本記事のレシピよりHugging Face Spacesの既存モデルを触る方が現実的だと感じました。

目次

PRX Part 3とは何か?まずは結論から

「自社で画像生成AIを学習させたいけれど、コストが現実的でなく踏み出せない」――そんな悩みを抱えていませんか?

従来、競争力のある拡散モデルを学習させるには数百万ドル単位の計算資源が必要でした。放置すれば、自社データで微調整した独自モデルを持つ機会を失い、汎用APIに依存し続けることになります。

そこで注目したいのがPRX Part 3です。Photoroomチームが2026年3月3日にHugging Face Blogで公開した「24時間スピードラン」レシピで、32台のNVIDIA H200を使い合計約$1500(1GPUあたり時給$2換算)で実用レベルのテキスト→画像モデルを学習させた実例です。コードはGitHubで完全オープンソース化されています。

この記事でわかること

  • PRX Part 3で使われている5つの中核技術(x-prediction / 知覚損失 / TREAD / REPA / Muon)の役割
  • 24時間$1500を実現する学習スケジュールとデータセットの中身
  • 日本人エンジニアが再現する際の現実的なコストと注意点
  • 競合手法(Stable Diffusion fine-tuning / FLUX)との位置付け

▶ でPRX Part 3の公開コードと記事原文を今すぐ確認する(無料・クレジットカード不要)

PRX Part 3の概要|誰が・何のために作ったのか

PRXはPhotoroom社のリサーチチーム(David Bertoin氏、Roman Frigg氏、Jon Almazán氏ら)が手掛ける画像生成モデル学習プロジェクトです。Part 1とPart 2では、拡散モデルのアーキテクチャと学習手法の改善案を1つずつ単独で評価していました。Part 3ではその知見を全て積み重ね、「現実的な計算予算でどこまで行けるか」を24時間で実証する内容になっています。

実際に公開ブログを読んでみると、研究論文にありがちな抽象論ではなく「実装でハマったポイント」「論文どおりにせず変更した理由」まで踏み込んで書かれており、エンジニア視点で非常に実用的だと感じました。Photoroomは画像編集SaaSとして実プロダクトを運営している会社なので、机上の理論ではなく本番投入を見据えた検証になっている点が信頼できます。

同社いわく、このスピードランは将来の大規模学習レシピの土台になる予定とのことで、コードと実験フレームワークの両方がGitHub上で公開されています。

主要機能の詳細|5つの中核技術を解説

1. x-prediction とピクセル空間学習

VAEを使わず直接ピクセル空間で予測する手法で、論文「Back to Basics: Let Denoising Generative Models Denoise」(Li and He, 2025) を採用しています。パッチサイズ32・初期トークン射影層に256次元のボトルネックを設け、512pxではシーケンス長256、1024pxでも1024に抑えることで、ピクセル空間学習の計算負荷を現実的なレベルに保っています。

2. 知覚損失(LPIPS + DINOv2)

ピクセル空間で予測するため、従来のコンピュータビジョン資産がそのまま使えるのが利点です。本レシピではLPIPS(重み0.1)とDINOv2ベースの知覚損失(重み0.01)を追加することで収束速度と最終品質を底上げしています。実装の細部では「パッチ単位ではなくプール後の全体特徴に対して損失を取る」「全ノイズレベルに適用する」というチューニングが効いたとのこと。

3. TREADによるトークンルーティング

各ステップを安価にするためにTREAD (Krause et al., 2025) を導入し、50%のトークンを2ブロック目から最終1個手前のブロックまで迂回させ、後で再注入する仕組みです。SPRINTより実装が簡素で、512pxではシーケンス長64対128と効率差が小さいため採用されています。

4. REPA × DINOv3による表現アライメント

8番目のトランスフォーマーブロックで重み0.5の整列損失を計算し、教師にはDINOv3を使用。TREADと組み合わせる際は「非ルーティングのトークンのみ」に損失を適用するという細やかな実装になっています。

5. Muonオプティマイザ

2次元パラメータ(行列)にはMuon(lr=1e-4, momentum=0.95, nesterov=true)を、それ以外のバイアスや正規化層にはAdam(lr=1e-4, betas=(0.9, 0.95))を適用する2グループ構成です。前回のPart 2の比較でAdam単体より明確な改善が出たため採用されたとのこと。

日本語ユーザー向け評価|実際に試してわかった4つの観点

PRX Part 3は研究プロジェクトのため、SaaSのような「日本語対応」とは観点が変わります。私が公開リポジトリと記事原文を読んだ印象を以下にまとめます。

  • ドキュメント言語: 記事・READMEともに英語のみ。日本語訳は2026年6月時点で確認できませんでした。専門用語が多いので、英語の論文を読み慣れていない方は機械翻訳併用がおすすめです
  • 決済: コード自体は無料(MITライセンス)。実行に必要なGPUを借りる場合、Hugging Face Hub課金は米ドル建てのため為替リスクがあります(後述)
  • サポート言語: GitHub IssuesやHugging Face Discordでの相談は基本英語。Photoroomチームへの直接問い合わせも英語ベースです
  • 学習データの日本語適性: 学習データは英語キャプションで再キャプション(Gemini 1.5使用)されているため、生成モデルは英語プロンプトに最適化されています。日本語プロンプトを使いたい場合は自前で多言語キャプションに置き換える必要があります

使ってみて感じた惜しい点として、日本語キャプション付きの公開データセットがレシピに組み込まれていないことが挙げられます。日本語独自表現の学習には、再キャプション段階での工夫が必須です。

料金プラン|PRX Part 3の実コストを試算

PRX Part 3のコード自体は無料公開ですが、実際に学習を回すにはGPUコストがかかります。Photoroom公式の試算と、Hugging Face公式の料金表をもとに整理しました。

項目 仕様 コスト(米ドル) 日本円換算(目安)
PRX Part 3 公開コード MITライセンス 無料 無料
論文記載のスピードラン 32×H200 / 24時間 約$1,500 約23万円
Hugging Face Pro(個人) ZeroGPU等の特典付き $9/月 約1,400円/月
HF Spaces 1xNvidia A100 従量課金 $2.50/時 約390円/時
HF Spaces 8xNvidia A100 大規模学習向け $20.00/時 約3,100円/時
HF Hub ストレージ(公開) 1TB/月 $12 約1,900円

※換算は1ドル=155円で算出した目安です。Hugging Face Hubの決済はStripe経由で行われ、解約はいつでも可能と公式に明記されています。月次サブスクは自動更新ですが、ダッシュボードから即時停止できます。

▶ でHugging Face Hubに無料登録して、GPUコストを試算する(無料・クレジットカード不要)

競合との比較|PRX Part 3 vs Stable Diffusion fine-tuning vs FLUX

「画像生成AIを自前で持ちたい」という目的で見た時、PRX Part 3は唯一の選択肢ではありません。代表的な競合と公平に比較します。

手法 主な特徴 初期コストの目安 日本語キャプション対応 おすすめ用途
PRX Part 3 (本記事) x-pred+TREAD+REPA+Muonの統合レシピ。フルスクラッチ学習可 $1,500〜(24h) 要自作データセット 独自モデルを根本から学習したい研究/事業者 —
Stable Diffusion LoRA fine-tuning 既存重みを少量データで微調整 $0〜数十ドル 日本語LoRAあり 特定キャラ・画風だけ覚えさせたい個人
FLUX系の独自学習 最新の大規模T2Iモデル 数万ドル以上 英語中心 大手企業の本格商用利用

判断基準: 「基盤モデルそのものを所有したいか / 既存モデルを微調整できれば十分か」が分岐点です。ChatGPTのような汎用APIで満足なら、わざわざ自前学習する必要はありません。一方「ブランド独自の世界観を1からモデルに焼き付けたい」場合、PRX Part 3は現時点で最も再現コストが安いレシピの1つだと感じました。

こんな人におすすめ / こんな人には向かない

おすすめできる人

  • 画像生成AIの研究者・大学院生で、最新の学習手法を実装ベースで理解したい方
  • Photoroomのような画像系SaaSを運営しており、独自モデル開発のレシピを探している事業者
  • 32×H200相当(またはレンタル)の計算資源にアクセスできるエンジニア

向かない人

  • 画像を生成したいだけの方: Hugging Face Spacesの既存デモやStable Diffusion WebUIで十分です
  • キャラクターLoRAを作りたい個人: Civitaiの既存LoRAやKohya_ssでの軽量fine-tuningが現実的です
  • 英語論文を読む時間がない方: 解説記事の翻訳が普及するまで待つのも手段です

総合評価|★4.3 / 5

★★★★☆(4.3) ― 研究系オープンソースとしては破格の完成度。記事の透明性と公開コードの整合性が高く、エンジニアが実装に踏み込みやすい構成です。一方で英語前提・大規模GPU必須という参入障壁が残るため、即実務利用できる読者層は限定的だと感じました。

よくある質問(FAQ)

※詳細はFAQセクションをご覧ください。

まとめ|PRX Part 3は「学習レシピのデファクト候補」

本記事の要点は以下の3つです。

  • PRX Part 3は32×H200で24時間・約$1,500の学習レシピを完全オープンソース化した、再現性重視のプロジェクト
  • x-prediction・知覚損失・TREAD・REPA・Muonという5つの最新技術を統合し、各々の理論値ではなく組み合わせ時の実測値が示されている点が画期的
  • コードはMITライセンスで自由に改変可能。日本語キャプション対応のデータセットを自前で用意すれば、ブランド固有のモデルを現実的なコストで作れる可能性があります

こんな方には特におすすめ: 自社サービス内で画像生成機能を持ちたい中堅SaaS事業者、独自世界観のモデルを学習させたいゲーム/エンタメ企業の研究開発担当者、そして拡散モデルの最先端実装を学びたいエンジニアです。

▶ でPRX Part 3の公開コードと解説記事を今すぐ確認する(無料・クレジットカード不要)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

CAPTCHA


目次