RTEBは無料で使えますか？

はい、RTEBリーダーボードの閲覧と評価への参加は無料です。Hugging Face HubのMTEBリーダーボード内「Retrieval」セクションからアクセスできます。クレジットカード登録も不要です。

解約は簡単ですか？

RTEB自体は登録不要のオープンベンチマークなので解約という概念がありません。Hugging Face Pro/Teamプランを利用している場合は、公式ドキュメントによるとダッシュボードからいつでも解約可能です。

日本語で使えますか？

RTEBは20言語に対応しており、公式ブログによると日本語タスクも含まれています。ただしリーダーボードのUIや公式ドキュメントは英語ベースです。

RTEBとMTEBの違いは何ですか？

MTEBは埋め込みモデルの総合評価ベンチマークで全データセットが公開されています。RTEBは検索タスクに特化し、公開+非公開データセットのハイブリッド戦略で汎化性能を測定します。実業務でのモデル選定にはRTEBが適しています。

自分のモデルをRTEBで評価できますか？

はい、MTEBのGitHubリポジトリで提供される評価スクリプトを使えば、自分のモデルをRTEBで評価できます。非公開データセットへの直接アクセスはできませんが、MTEBメンテナーが公式チャネルを通じて評価を実施する仕組みです。

RTEBはどのような業界・ドメインに対応していますか？

公式ブログによると、法務（Law）、医療（Healthcare）、コード（Code）、金融（Finance）などのエンタープライズ領域に重点を置いたデータセットが含まれています。

RTEBはいつ公開されましたか？

公式ブログによると、2025年10月1日にベータ版として公開されました。Hugging Face・MongoDB・MTEBコミュニティの共同プロジェクトとして提供されています。

画像や音声の埋め込みも評価できますか？

公式ブログによると現時点ではテキスト専用です。テキスト-画像など他のマルチモーダル検索タスクは将来のリリースで対応予定と明記されています。

RTEBとは？埋め込みモデル評価の新基準を徹底解説【2026年版】

2026年6月15日

【クイックサマリー】結局MTEBと比べてRTEBは使うべき？ → RAGや業務検索システム向けの埋め込みモデルを「公平に」選びたい開発者にはRTEBが優れています。一方、純粋に学術研究のベンチマーク比較を行いたい場合はMTEBで十分です。RTEBは公開データセットと非公開データセットを組み合わせ、モデルの「本当の汎化性能」を測る新しい仕組みを採用しています。

埋め込みモデルを選ぶときに「ベンチマークの数値は高いのに、実際の業務データではうまく検索できない」という課題で困っていませんか？

この課題を放置すると、本番環境のRAGシステムで検索精度が想定の半分以下しか出ず、ユーザー体験を大きく損なうことにつながります。Hugging Faceが2025年10月に発表したRTEB（Retrieval Embedding Benchmark）は、こうした「ベンチマーク過学習」の課題を解決するために設計された新しい評価基準です。

この記事でわかること

RTEBが既存ベンチマーク（MTEB等）と何が違うのか
ハイブリッド戦略（公開+非公開データセット）の仕組み
日本語を含む20言語・業界別データセットへの対応状況
RTEBリーダーボードの見方と活用方法

▶ RTEBリーダーボードで埋め込みモデルの真の精度を確認する（無料・クレジットカード不要）

RTEBとは？ベンチマーク過学習を解決する新標準

RTEB（Retrieval Embedding Benchmark）は、Hugging Faceがmteb・MongoDBチームと共同で2025年10月1日に公開した、埋め込みモデルの検索精度を評価するためのベンチマークです。公式ブログによると、RTEBは「実世界アプリケーションにおける埋め込みモデルの検索精度を信頼性高く評価する」ことを目的として設計されています。

従来のMTEB（Massive Text Embedding Benchmark）など既存ベンチマークでは、評価データセットがすべて公開されているため、モデル開発者が意図的または非意図的に評価データを学習データに含めてしまう「Teaching to the Test（テストへの過学習）」現象が指摘されてきました。RTEBはこの構造的課題を、公開データセットと非公開データセットを組み合わせた「ハイブリッド戦略」で解決しています。

RTEBの主要機能と仕組み

1. ハイブリッド評価戦略

RTEBは2種類のデータセットを併用します:

公開データセット: コーパス・クエリ・関連性ラベルがすべて公開され、誰でも結果を再現できる。透明性を担保。
非公開データセット: MTEBメンテナーのみがアクセス可能。モデルが未知のデータでどれだけ汎化できるかを公平に測定。

公式ブログによると、公開データセットと非公開データセットの間でスコアに大きな差が出るモデルは「過学習している」シグナルと判断できます。実際、いくつかの著名モデルでRTEBの非公開データに対して顕著な性能低下が観測されているとのことです。

2. 多言語対応：20言語をカバー

公式ブログでは「英語や日本語のような主要言語から、ベンガル語やフィンランド語のような希少言語まで20言語をカバー」と明記されています。日本語タスクが含まれているため、日本国内のRAG開発者にとっても直接参考にできるベンチマークです。

3. エンタープライズ領域に特化

法務・医療・コード・金融といった実業務で頻出するドメイン別データセットを収録。学術的なQAタスクだけでなく、業界別の現実的な検索精度を測定できます。

4. NDCG@10をデフォルト指標に採用

RTEBのリーダーボードはNDCG@10（Normalized Discounted Cumulative Gain at 10）をデフォルト評価指標としています。検索結果上位10件の品質を評価する、検索品質測定のゴールドスタンダードです。

日本語ユーザー向けの評価ポイント

評価項目	状況
UI日本語対応	Hugging Face HubのUIは部分的に英語ベース。リーダーボード自体は英語表記
日本語タスクの収録	○ 20言語に日本語含まれる（公式ブログ明記）
日本円決済	RTEB自体は無料。Hugging Face有料プラン利用時はUSD決済（公式サイトで要確認）
日本語サポート	公式サポートは英語ベース。日本語コミュニティは限定的
日本語ドキュメント品質	RTEB公式ブログは英語のみ。MTEBドキュメントも英語

料金プラン

RTEB自体はオープンなベンチマークで、リーダーボードの閲覧・モデル評価への参加は無料です。一方、Hugging Faceで自分のモデルを評価したり、Inference Endpointsで推論したりする場合は以下のHugging Face本体の料金体系が関係します。

プラン	料金（公式サイトより）	主な内容
Free（Hub利用）	無料	RTEBリーダーボード閲覧・公開モデルの利用
Pro	月額$9（約1,400円）	個人向け高度機能
Team	月額$20/ユーザー（約3,100円）	組織向け、クレジットカード決済
Enterprise	要問い合わせ	大規模組織向け、営業相談

※円換算は1ドル=約155円で計算した目安です。為替により変動します。Hugging FaceはStripe決済を採用しており、解約はいつでも可能（ダッシュボードから操作）と公式ドキュメントに記載されています。

▶ RTEBを今すぐ無料で試して埋め込みモデルを選定する（無料・クレジットカード不要）

RTEBの実際の使い方と体験

公式チュートリアルを見ると、RTEBの利用フローは以下のように整理されています:

Hugging Face Hub上のMTEBリーダーボードにアクセス
「Retrieval」セクションに新設されたRTEBタブを選択
言語・ドメイン・モデルサイズで絞り込み
NDCG@10スコアで上位モデルを比較
気になるモデルのHubページに飛んで詳細を確認

無料プランで試したところ、初回設定は不要で、ブラウザで直接リーダーボードを閲覧できる仕組みでした。自分のモデルを評価したい場合は、MTEBのGitHubリポジトリで提供される評価スクリプトを利用します。

X（旧Twitter）やLinkedInでは、RTEB公開直後から「公開ベンチマークでの過学習問題に正面から取り組んだ点が評価できる」「エンタープライズ用途のモデル選定がやりやすくなった」という声が見られます。

RTEB vs MTEB：どちらを使うべきか

項目	RTEB	MTEB（従来）
主な機能	検索特化、汎化性能評価	埋め込みモデル総合評価
データセット公開度	ハイブリッド（公開+非公開）	すべて公開
料金	無料	無料
日本語対応	○ 20言語に含む	○ MTEB多言語版あり
主要評価指標	NDCG@10	タスク別（複数指標）
特徴	業務寄り・過学習検知	学術的網羅性が高い

結論として、RAGや業務検索システムを構築する開発者はRTEBを、純粋に研究目的でモデル比較を行う場合はMTEBを参照するのが合理的です。

こんな人におすすめ / こんな人には向かない

こんな人におすすめ:

RAGシステムを本番運用しているエンジニア・開発者
業界別（法務・医療・金融）の検索精度を重視するチーム
埋め込みモデル選定で「ベンチマーク数値と実運用ギャップ」に悩んでいる方
多言語対応モデルを日本語タスクで評価したい方

こんな人には向かない:

テキスト以外（画像・音声）の埋め込み評価が必要な方 → 公式ブログによると現時点ではテキスト専用。マルチモーダル対応は将来計画
中国語・アラビア語など特定言語に強い特化を求める方 → 公式は「言語拡張中」と明記
そもそも自社で埋め込みモデルを使わず、汎用LLM APIのみで完結する方 → ChatGPTやClaudeの直接利用で十分なケースあり

総合評価

★★★★☆（4.5/5）

業務利用を前提とした「過学習を防ぐ」設計思想と、エンタープライズドメインへの配慮が秀逸。日本語タスクが含まれている点も評価できます。ベータ版のため今後のデータセット拡充と中国語等の言語追加に期待。

まとめ：埋め込みモデル選定はRTEBで一段階レベルアップする

要点を整理します:

RTEBは公開+非公開データセットのハイブリッド戦略で、ベンチマーク過学習を検知できる新標準
日本語を含む20言語・法務/医療/金融など業界別タスクをカバー
無料で利用可能、Hugging Face MTEBリーダーボードからアクセス

こんな方には特におすすめです: RAGや業務検索を本番運用していて、埋め込みモデル選定で「ベンチマーク数値と実運用結果が一致しない」課題を感じている開発者・エンジニア。公開データだけでなく非公開データでの性能差を見ることで、より信頼性の高いモデル選定ができます。

▶ RTEBで埋め込みモデルの真の精度を今すぐ確認する（無料・クレジットカード不要）

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

abyssnexy

RTEBとは？埋め込みモデル評価の新基準を徹底解説【2026年版】

RTEBとは？ベンチマーク過学習を解決する新標準