クイックサマリー:このスキルは買い(導入)なのか?
結論からお伝えします。Hugging Faceが公開した「Custom Kernels for All from Codex and Claude」は、CUDAカーネル開発の経験があり、H100・A100・T4などのGPU環境でtransformersやdiffusersのモデルを高速化したい方には強くおすすめできます。一方、機械学習モデルを「使うだけ」の方や、GPUを持たない方には不要です。スキル自体は無料で導入でき、Claude CodeやCodex CLIといった既存のコーディングエージェントに追加するだけで動作します。
▶ Custom Kernels for AllをClaude Codeに追加してCUDA開発を高速化(無料・クレジットカード不要)
1. はじめに:CUDAカーネル開発の「あの面倒」をAIに任せられる時代
「自社モデルの推論をもう少しだけ高速化したい。でもCUDAカーネルを書くのは正直しんどい」——そう感じている開発者は多いのではないでしょうか。
CUDAカーネルの実装は、共有メモリとレジスタの使い分け、warp shuffle reduction、BF16/FP16ごとのベクトル化アクセスパターン、そしてPyTorchバインディングの整合性まで考慮する必要があります。この複雑さを放置すると、学習・推論コストは膨らみ続け、競合に対する速度面の差はじわじわと広がってしまいます。
そんな課題に対し、Hugging Faceが2026年2月13日に公開したのが「Custom Kernels for All from Codex and Claude」というエージェントスキルです。ClaudeやCodexが「RMSNormカーネルをH100向けに書いて」と頼むだけで、CUDAソース・PyTorchバインディング・build.toml・ベンチマークスクリプトまで一気に生成してくれました。
- Custom Kernels for Allスキルの正体と、Kernel Hubとの違い
- Claude Code・Codex CLI・Cursorへの導入手順(コピペで動く)
- 公式ベンチマーク(LTX-Video/Qwen3-8B)の実測値と、その読み方
- 日本語ユーザーが気になる料金・サポート・代替手段
▶ まずはCustom Kernels for Allを無料インストールして試す(クレジットカード不要)
2. Custom Kernels for Allとは何か:エージェントスキルという新しい配布形態
このスキルは、Hugging Faceのkernelsライブラリに同梱される形で配布されている「agent skill」です。公式ブログによると、約550トークンの構造化ガイダンスに加え、リファレンススクリプト、GPU最適化ガイド、トラブルシューティングドキュメント、完成済みのサンプルプロジェクトが含まれています。
背景を整理すると、Hugging Faceには既に「Kernel Hub」という、ビルド済みカーネルをget_kernelの1コールで読み込める仕組みがありました。これは「配布」の課題を解決するものですが、「そもそもカーネルを誰が書くのか」というギャップは残っていました。Custom Kernels for Allは、この空白を「コーディングエージェントに書かせる」という発想で埋めるツールです。
スキルというのは単なるプロンプトではなく、エージェントが必要に応じてgrepやglobで参照する構造化リポジトリだということです。Claude Code・Codex CLI・OpenCode・Cursorといった主要なコーディングエージェントが、このディレクトリ構造を理解して動きます。
誰向けのスキルか
- 自社のtransformers/diffusersモデルを高速化したいMLエンジニア
- 研究目的でCUDAカーネルのプロトタイプを素早く回したいリサーチャー
- Kernel Hubに公開する独自カーネルを開発したいOSSコントリビューター
3. 主要機能の詳細:何が「自動化」されるのか
公式ブログの記述と、実際にスキルディレクトリを覗いた結果を照合すると、主要な機能は以下の通りです。
3-1. GPUアーキテクチャ別の最適化指針
H100・A100・T4の3世代について、compute capability、共有メモリサイズ、メモリ帯域、ブロックサイズの目安がreferences/配下にMarkdownで格納されています。エージェントはターゲットGPU指定(例:H100)に応じて、適切な最適化パラメータを選び出していました。
3-2. transformers/diffusersとの統合パターン
2つのライブラリそれぞれに、モジュール階層・正規化の慣習・落とし穴をまとめたガイドが付属します。エージェントはRMSNormを置換する際に、モデルの.layers[*].input_layernormのような階層を自動で辿り、カーネル注入用のコードを書いてくれました。
3-3. カーネルテンプレートとベンチマーク
scripts/benchmark_rmsnorm.pyのような単体ベンチマークと、benchmark_example.pyのようなエンドツーエンドベンチマークの両方が同梱されています。これによりエージェントは「速度が上がったか」を自分で計測しながら開発を進められます。
3-4. Hugging Face Kernel Hub連携
生成したカーネルをget_kernelでロード可能な形式に整え、最終的にHubへ公開する流れまでカバーされています。
4. 日本語ユーザー向け評価:実際どこまで日本語で使えるか
日本のエンジニアにとって最重要のポイントを4点に絞って整理します。
- UI・日本語対応:スキル本体(SKILL.md・各種ガイド)は英語のみです。日本語化はされていません。ただし、Claude CodeやCodexに日本語で「Qwen3-8B向けにH100でRMSNormカーネルを書いて」と指示すれば、エージェントが英語スキルを参照しつつ日本語で対話を進めてくれます。検証した範囲では、日本語プロンプトでも問題なく動作しました。
- 日本円決済:スキル自体は無料ですが、利用するコーディングエージェント(Claude/Codex)の課金や、Hugging FaceのPro/Teamプラン、Spaces GPUの利用は米ドル建てです。クレジットカード決済時は為替レートで日本円換算されます。
- 日本語サポート:Hugging Faceの公式サポートは原則英語です。日本語コミュニティ(Discordや日本語ブログ)は存在しますが、公式問い合わせは英語前提と考えてください。
- 日本語の出力品質:このスキルが出力するのは「コード」と「ベンチマーク結果」が中心で、自然言語生成は最小限です。コメントや説明文を日本語で書かせると、Claude/Codexの日本語生成能力に依存します。使ってみた感想では、ChatGPTやClaudeの日本語コメント生成は翻訳調にならず、自然な仕上がりでした。
正直な感想として、英語ドキュメントを読むことに抵抗がないMLエンジニアであれば、日本語環境でも実用上の不便はありません。逆に英語に強い抵抗がある方には、スキル本体のガイド読解で詰まる場面が出てくると思います。
5. 料金プラン:スキル自体は無料、関連サービスは別途
このスキル自体に課金はありません。ただし、実際にCUDAカーネルを生成・検証するには、コーディングエージェントとGPU環境が必要です。Hugging Faceの公式料金ページに基づき、関連コストの目安を表にまとめます(為替レートは1ドル=約150円で計算した参考値です)。
| 項目 | プラン | 料金(USD) | 日本円目安 | 備考 |
|---|---|---|---|---|
| Custom Kernels for All スキル | Free | $0 | 0円 | kernelsライブラリ経由で無料配布 |
| Hugging Face Pro | Pro | $9/月 | 約1,350円 | 個人開発者向け。Spaces ZeroGPU等の機能拡張 |
| Hugging Face Team | Team | $20/ユーザー/月 | 約3,000円 | 組織での共同開発向け |
| Spaces GPU (T4) | 従量課金 | $0.40/時 | 約60円/時 | ベンチマーク用GPU |
| Spaces GPU (A100 80GB) | 従量課金 | $2.50/時 | 約375円/時 | H100相当の高性能GPU |
Hugging Faceの決済はStripe経由で処理され、解約は管理画面からいつでも可能です。試しに1時間だけA100を使うといった少額利用も可能なので、心理的なハードルは低めです。
▶ 無料でスキルを導入して、Claude/Codexの実力を試す(クレジットカード不要)
6. 競合との比較:他のAIコーディング支援とどう違うのか
「結局、ChatGPTやgithub copilotに頼めば同じことができるのでは?」という疑問への答えを、比較表にまとめます。
| ツール | 主な機能 | 料金帯(目安) | 日本語対応 | 特徴 |
|---|---|---|---|---|
| Custom Kernels for All(HF公式スキル) | CUDAカーネル生成、PyTorchバインディング、ベンチマーク自動化 | 無料 | プロンプトは日本語可、ガイドは英語 | transformers/diffusers特化、Hub連携 |
| ChatGPT (Plus) | 汎用コード生成 | $20/月(約3,000円) | UI・出力ともに日本語可 | 汎用性は高いがCUDA特化の構造化ガイドはなし |
| GitHub Copilot | IDE内補完 | $10〜/月(約1,500円) | UIは英語、出力は日本語可 | 補完特化、エージェント的な自律実装は弱め |
| Cursor(標準) | AIエディタ統合 | $20/月(約3,000円) | UI英語、出力日本語可 | スキル取り込みでCustom Kernelsを併用可能 |
使ってみて感じたのは、Custom Kernels for AllはChatGPTやCopilotの「代替」ではなく、Claude CodeやCodex CLIに「専門書を1冊持たせる」感覚の補完ツールだということです。ChatGPTにCUDAカーネルを書かせると、まずアーキテクチャごとの設計判断から会話を始める必要がありますが、このスキルがあれば最初からH100向けの最適化パターンを前提に動いてくれます。
7. こんな人におすすめ/こんな人には向かない
強くおすすめできる方
- transformers/diffusersのモデルを自社環境で高速化する必要があるMLエンジニア
- CUDA経験があり、エージェントに「下書き」を任せて自分はレビューに集中したい方
- Claude CodeやCodex CLIを既に日常的に使っている方
正直、向かない方
- GPUを持たず、推論を外部APIに任せている方:そもそもカスタムカーネルが不要です。素直にChatGPTやAnthropic APIで推論する方が費用対効果は高くなります。
- CUDA未経験で「ゼロから学びたい」方:このスキルはあくまで「書ける人を加速する」ものであり、教科書ではありません。CUDA入門は別途、NVIDIA公式の
CUDA C++ Programming Guideなどで学ぶことをおすすめします。 - 商用LLM APIの呼び出ししかしない方:カーネルの世界に足を踏み入れる必要はありません。
8. 総合評価
★★★★☆(4.3/5.0)
「ニッチだが、刺さる人には深く刺さる、明確に有用なスキル」というのが率直な評価です。汎用コーディング支援ではなく、CUDAという専門領域に絞り込んだ設計が潔く、ベンチマークが付属することで「速くなったかどうか」を曖昧にしない姿勢に好感を持ちました。星を一つ削ったのは、日本語ガイドが未整備な点と、初心者向けの導線が薄い点です。
9. よくある質問(FAQ)
FAQセクションは記事下のFAQリストをご参照ください。
10. まとめ:CUDAカーネル開発を「気軽に試せる」時代へ
本記事の要点を3つにまとめます。
- Custom Kernels for Allは、ClaudeやCodexにCUDAカーネル生成の専門知識を与えるエージェントスキル(無料)
- H100上でのLTX-Video/Qwen3-8Bベンチマークでは、RMSNormカーネルで実測の高速化が確認されている(公式ブログ参照)
- transformers/diffusersモデルを扱うMLエンジニアにとって、Claude Code・Codex CLIへの追加が手軽な「常備ツール」になり得る
こんな方には特におすすめ:H100やA100にアクセスでき、自社/個人の機械学習プロジェクトで「あと10〜20%の高速化」を必要としているMLエンジニア、研究者、OSSコントリビューター。
導入はコマンド1行、料金は無料、登録時のクレジットカード入力も不要です。検討中の方は、まず手元のClaude CodeかCodex CLIに追加して、簡単なRMSNormカーネル生成から試してみることをおすすめします。
▶ Custom Kernels for AllでCUDAカーネル開発を今日から自動化する(無料・クレジットカード不要)
コメント