PRX Part 3は無料で試せますか?

はい、コードとブログ記事は完全無料で公開されています。GitHubのPhotoroom/prxリポジトリと、Hugging Face Blogの該当記事から無償でアクセスできます。クレジットカード登録も不要です。ただし実際に学習を回すには別途GPU費用がかかります。

解約は簡単にできますか?

PRX Part 3そのものは買い切り型の有料サービスではないため解約という概念がありません。関連するHugging Face Pro($9/月)を利用する場合は、公式ダッシュボードからいつでも即時解約可能とHugging Face公式に記載されています。決済はStripe経由で行われます。

日本語のプロンプトで画像を生成できますか?

公開レシピで学習されたモデルは英語キャプション中心のデータセットで学習されており、日本語プロンプトには最適化されていません。日本語対応にするには、自前で日本語キャプション付きデータセットを用意して再学習する必要があります。

個人のGPU(RTX 4090など)1枚で再現できますか?

論文どおりの24時間スピードランは32台のH200を前提としているため、単一GPUでは現実的ではありません。ただしバッチサイズや解像度を縮小すれば、コンセプト検証レベルの再現は可能です。コードはオープンなので自由に縮小設定して試せます。

$1,500の計算コストは本当に正確ですか?

公式ブログでは「1GPUあたり時給$2 × 32GPU × 24時間 = $1,500」と明記されています。実際のクラウド単価は提供事業者によって変動するため、レンタル先によっては数倍の差が出る場合もあります。詳細は公式記事と利用予定のGPU提供事業者の料金を確認してください。

Stable Diffusionと何が違いますか?

Stable DiffusionはVAEを使った潜在拡散モデルですが、PRX Part 3はVAEを使わずピクセル空間で直接学習する点が大きな違いです。また、TREADによる計算量削減・REPAによる表現整列・Muonオプティマイザの採用など、最新の効率化手法を統合している点が新しい特徴です。

商用利用は可能ですか?

公開コードはMITライセンスで配布されているため、商用利用・改変・再配布が原則可能です。ただし学習に使用するデータセット(FLUX-Reason-6M等)はそれぞれ個別のライセンスがあるため、商用利用前に各データセットの利用規約を必ず確認してください。

サポートはどこで受けられますか?

GitHub IssuesとHugging Face Discordコミュニティが主な相談窓口です。Photoroomチームへの直接サポートは現時点で日本語提供されていません。技術的な質問は英語でのやり取りが基本となります。

PRX Part 3徹底解説｜画像生成AI学習を24時間$1500で実現するレシピ

2026年6月8日2026年6月11日

クイックサマリー: Stable Diffusionの学習に数百万ドルかかった時代と比べたい人にPRX Part 3は最適です。逆に「すぐ画像を生成したいだけ」の方は、本記事のレシピよりHugging Face Spacesの既存モデルを触る方が現実的だと感じました。

PRX Part 3とは何か？まずは結論から

「自社で画像生成AIを学習させたいけれど、コストが現実的でなく踏み出せない」――そんな悩みを抱えていませんか?

従来、競争力のある拡散モデルを学習させるには数百万ドル単位の計算資源が必要でした。放置すれば、自社データで微調整した独自モデルを持つ機会を失い、汎用APIに依存し続けることになります。

そこで注目したいのがPRX Part 3です。Photoroomチームが2026年3月3日にHugging Face Blogで公開した「24時間スピードラン」レシピで、32台のNVIDIA H200を使い合計約$1500(1GPUあたり時給$2換算)で実用レベルのテキスト→画像モデルを学習させた実例です。コードはGitHubで完全オープンソース化されています。

この記事でわかること

PRX Part 3で使われている5つの中核技術(x-prediction / 知覚損失 / TREAD / REPA / Muon)の役割
24時間$1500を実現する学習スケジュールとデータセットの中身
日本人エンジニアが再現する際の現実的なコストと注意点
競合手法(Stable Diffusion fine-tuning / FLUX)との位置付け

▶ でPRX Part 3の公開コードと記事原文を今すぐ確認する(無料・クレジットカード不要)

PRX Part 3の概要｜誰が・何のために作ったのか

PRXはPhotoroom社のリサーチチーム(David Bertoin氏、Roman Frigg氏、Jon Almazán氏ら)が手掛ける画像生成モデル学習プロジェクトです。Part 1とPart 2では、拡散モデルのアーキテクチャと学習手法の改善案を1つずつ単独で評価していました。Part 3ではその知見を全て積み重ね、「現実的な計算予算でどこまで行けるか」を24時間で実証する内容になっています。

実際に公開ブログを読んでみると、研究論文にありがちな抽象論ではなく「実装でハマったポイント」「論文どおりにせず変更した理由」まで踏み込んで書かれており、エンジニア視点で非常に実用的だと感じました。Photoroomは画像編集SaaSとして実プロダクトを運営している会社なので、机上の理論ではなく本番投入を見据えた検証になっている点が信頼できます。

同社いわく、このスピードランは将来の大規模学習レシピの土台になる予定とのことで、コードと実験フレームワークの両方がGitHub上で公開されています。

主要機能の詳細｜5つの中核技術を解説

1. x-prediction とピクセル空間学習

VAEを使わず直接ピクセル空間で予測する手法で、論文「Back to Basics: Let Denoising Generative Models Denoise」(Li and He, 2025) を採用しています。パッチサイズ32・初期トークン射影層に256次元のボトルネックを設け、512pxではシーケンス長256、1024pxでも1024に抑えることで、ピクセル空間学習の計算負荷を現実的なレベルに保っています。

2. 知覚損失(LPIPS + DINOv2)

ピクセル空間で予測するため、従来のコンピュータビジョン資産がそのまま使えるのが利点です。本レシピではLPIPS(重み0.1)とDINOv2ベースの知覚損失(重み0.01)を追加することで収束速度と最終品質を底上げしています。実装の細部では「パッチ単位ではなくプール後の全体特徴に対して損失を取る」「全ノイズレベルに適用する」というチューニングが効いたとのこと。

3. TREADによるトークンルーティング

各ステップを安価にするためにTREAD (Krause et al., 2025) を導入し、50%のトークンを2ブロック目から最終1個手前のブロックまで迂回させ、後で再注入する仕組みです。SPRINTより実装が簡素で、512pxではシーケンス長64対128と効率差が小さいため採用されています。

4. REPA × DINOv3による表現アライメント

8番目のトランスフォーマーブロックで重み0.5の整列損失を計算し、教師にはDINOv3を使用。TREADと組み合わせる際は「非ルーティングのトークンのみ」に損失を適用するという細やかな実装になっています。

5. Muonオプティマイザ

2次元パラメータ(行列)にはMuon(lr=1e-4, momentum=0.95, nesterov=true)を、それ以外のバイアスや正規化層にはAdam(lr=1e-4, betas=(0.9, 0.95))を適用する2グループ構成です。前回のPart 2の比較でAdam単体より明確な改善が出たため採用されたとのこと。

日本語ユーザー向け評価｜実際に試してわかった4つの観点

PRX Part 3は研究プロジェクトのため、SaaSのような「日本語対応」とは観点が変わります。私が公開リポジトリと記事原文を読んだ印象を以下にまとめます。

ドキュメント言語: 記事・READMEともに英語のみ。日本語訳は2026年6月時点で確認できませんでした。専門用語が多いので、英語の論文を読み慣れていない方は機械翻訳併用がおすすめです
決済: コード自体は無料(MITライセンス)。実行に必要なGPUを借りる場合、Hugging Face Hub課金は米ドル建てのため為替リスクがあります(後述)
サポート言語: GitHub IssuesやHugging Face Discordでの相談は基本英語。Photoroomチームへの直接問い合わせも英語ベースです
学習データの日本語適性: 学習データは英語キャプションで再キャプション(Gemini 1.5使用)されているため、生成モデルは英語プロンプトに最適化されています。日本語プロンプトを使いたい場合は自前で多言語キャプションに置き換える必要があります

使ってみて感じた惜しい点として、日本語キャプション付きの公開データセットがレシピに組み込まれていないことが挙げられます。日本語独自表現の学習には、再キャプション段階での工夫が必須です。

料金プラン｜PRX Part 3の実コストを試算

PRX Part 3のコード自体は無料公開ですが、実際に学習を回すにはGPUコストがかかります。Photoroom公式の試算と、Hugging Face公式の料金表をもとに整理しました。

項目	仕様	コスト(米ドル)	日本円換算(目安)
PRX Part 3 公開コード	MITライセンス	無料	無料
論文記載のスピードラン	32×H200 / 24時間	約$1,500	約23万円
Hugging Face Pro(個人)	ZeroGPU等の特典付き	$9/月	約1,400円/月
HF Spaces 1xNvidia A100	従量課金	$2.50/時	約390円/時
HF Spaces 8xNvidia A100	大規模学習向け	$20.00/時	約3,100円/時
HF Hub ストレージ(公開)	1TB/月	$12	約1,900円

※換算は1ドル=155円で算出した目安です。Hugging Face Hubの決済はStripe経由で行われ、解約はいつでも可能と公式に明記されています。月次サブスクは自動更新ですが、ダッシュボードから即時停止できます。

▶ でHugging Face Hubに無料登録して、GPUコストを試算する(無料・クレジットカード不要)

競合との比較｜PRX Part 3 vs Stable Diffusion fine-tuning vs FLUX

「画像生成AIを自前で持ちたい」という目的で見た時、PRX Part 3は唯一の選択肢ではありません。代表的な競合と公平に比較します。

手法	主な特徴	初期コストの目安	日本語キャプション対応	おすすめ用途
PRX Part 3 (本記事)	x-pred+TREAD+REPA+Muonの統合レシピ。フルスクラッチ学習可	$1,500〜(24h)	要自作データセット	独自モデルを根本から学習したい研究/事業者 —
Stable Diffusion LoRA fine-tuning	既存重みを少量データで微調整	$0〜数十ドル	日本語LoRAあり	特定キャラ・画風だけ覚えさせたい個人
FLUX系の独自学習	最新の大規模T2Iモデル	数万ドル以上	英語中心	大手企業の本格商用利用

判断基準: 「基盤モデルそのものを所有したいか / 既存モデルを微調整できれば十分か」が分岐点です。ChatGPTのような汎用APIで満足なら、わざわざ自前学習する必要はありません。一方「ブランド独自の世界観を1からモデルに焼き付けたい」場合、PRX Part 3は現時点で最も再現コストが安いレシピの1つだと感じました。

こんな人におすすめ / こんな人には向かない

向かない人

画像を生成したいだけの方: Hugging Face Spacesの既存デモやStable Diffusion WebUIで十分です
キャラクターLoRAを作りたい個人: Civitaiの既存LoRAやKohya_ssでの軽量fine-tuningが現実的です
英語論文を読む時間がない方: 解説記事の翻訳が普及するまで待つのも手段です

総合評価｜★4.3 / 5

★★★★☆(4.3) ― 研究系オープンソースとしては破格の完成度。記事の透明性と公開コードの整合性が高く、エンジニアが実装に踏み込みやすい構成です。一方で英語前提・大規模GPU必須という参入障壁が残るため、即実務利用できる読者層は限定的だと感じました。

よくある質問(FAQ)

※詳細はFAQセクションをご覧ください。

まとめ｜PRX Part 3は「学習レシピのデファクト候補」

本記事の要点は以下の3つです。

PRX Part 3は32×H200で24時間・約$1,500の学習レシピを完全オープンソース化した、再現性重視のプロジェクト
x-prediction・知覚損失・TREAD・REPA・Muonという5つの最新技術を統合し、各々の理論値ではなく組み合わせ時の実測値が示されている点が画期的
コードはMITライセンスで自由に改変可能。日本語キャプション対応のデータセットを自前で用意すれば、ブランド固有のモデルを現実的なコストで作れる可能性があります

こんな方には特におすすめ: 自社サービス内で画像生成機能を持ちたい中堅SaaS事業者、独自世界観のモデルを学習させたいゲーム/エンタメ企業の研究開発担当者、そして拡散モデルの最先端実装を学びたいエンジニアです。

▶ でPRX Part 3の公開コードと解説記事を今すぐ確認する(無料・クレジットカード不要)

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

abyssnexy

PRX Part 3徹底解説｜画像生成AI学習を24時間$1500で実現するレシピ

PRX Part 3とは何か？まずは結論から

PRX Part 3の概要｜誰が・何のために作ったのか