MENU

RTEBとは?埋め込みモデル評価の新基準を徹底解説【2026年版】

【クイックサマリー】結局MTEBと比べてRTEBは使うべき? → RAGや業務検索システム向けの埋め込みモデルを「公平に」選びたい開発者にはRTEBが優れています。一方、純粋に学術研究のベンチマーク比較を行いたい場合はMTEBで十分です。RTEBは公開データセットと非公開データセットを組み合わせ、モデルの「本当の汎化性能」を測る新しい仕組みを採用しています。

埋め込みモデルを選ぶときに「ベンチマークの数値は高いのに、実際の業務データではうまく検索できない」という課題で困っていませんか?

この課題を放置すると、本番環境のRAGシステムで検索精度が想定の半分以下しか出ず、ユーザー体験を大きく損なうことにつながります。Hugging Faceが2025年10月に発表したRTEB(Retrieval Embedding Benchmark)は、こうした「ベンチマーク過学習」の課題を解決するために設計された新しい評価基準です。

この記事でわかること
  • RTEBが既存ベンチマーク(MTEB等)と何が違うのか
  • ハイブリッド戦略(公開+非公開データセット)の仕組み
  • 日本語を含む20言語・業界別データセットへの対応状況
  • RTEBリーダーボードの見方と活用方法

RTEBリーダーボードで埋め込みモデルの真の精度を確認する(無料・クレジットカード不要)

目次

RTEBとは?ベンチマーク過学習を解決する新標準

RTEB(Retrieval Embedding Benchmark)は、Hugging Faceがmteb・MongoDBチームと共同で2025年10月1日に公開した、埋め込みモデルの検索精度を評価するためのベンチマークです。公式ブログによると、RTEBは「実世界アプリケーションにおける埋め込みモデルの検索精度を信頼性高く評価する」ことを目的として設計されています。

従来のMTEB(Massive Text Embedding Benchmark)など既存ベンチマークでは、評価データセットがすべて公開されているため、モデル開発者が意図的または非意図的に評価データを学習データに含めてしまう「Teaching to the Test(テストへの過学習)」現象が指摘されてきました。RTEBはこの構造的課題を、公開データセットと非公開データセットを組み合わせた「ハイブリッド戦略」で解決しています。

RTEBの主要機能と仕組み

1. ハイブリッド評価戦略

RTEBは2種類のデータセットを併用します:

  • 公開データセット: コーパス・クエリ・関連性ラベルがすべて公開され、誰でも結果を再現できる。透明性を担保。
  • 非公開データセット: MTEBメンテナーのみがアクセス可能。モデルが未知のデータでどれだけ汎化できるかを公平に測定。

公式ブログによると、公開データセットと非公開データセットの間でスコアに大きな差が出るモデルは「過学習している」シグナルと判断できます。実際、いくつかの著名モデルでRTEBの非公開データに対して顕著な性能低下が観測されているとのことです。

2. 多言語対応:20言語をカバー

公式ブログでは「英語や日本語のような主要言語から、ベンガル語やフィンランド語のような希少言語まで20言語をカバー」と明記されています。日本語タスクが含まれているため、日本国内のRAG開発者にとっても直接参考にできるベンチマークです。

3. エンタープライズ領域に特化

法務・医療・コード・金融といった実業務で頻出するドメイン別データセットを収録。学術的なQAタスクだけでなく、業界別の現実的な検索精度を測定できます。

4. NDCG@10をデフォルト指標に採用

RTEBのリーダーボードはNDCG@10(Normalized Discounted Cumulative Gain at 10)をデフォルト評価指標としています。検索結果上位10件の品質を評価する、検索品質測定のゴールドスタンダードです。

日本語ユーザー向けの評価ポイント

評価項目状況
UI日本語対応Hugging Face HubのUIは部分的に英語ベース。リーダーボード自体は英語表記
日本語タスクの収録○ 20言語に日本語含まれる(公式ブログ明記)
日本円決済RTEB自体は無料。Hugging Face有料プラン利用時はUSD決済(公式サイトで要確認)
日本語サポート公式サポートは英語ベース。日本語コミュニティは限定的
日本語ドキュメント品質RTEB公式ブログは英語のみ。MTEBドキュメントも英語

料金プラン

RTEB自体はオープンなベンチマークで、リーダーボードの閲覧・モデル評価への参加は無料です。一方、Hugging Faceで自分のモデルを評価したり、Inference Endpointsで推論したりする場合は以下のHugging Face本体の料金体系が関係します。

プラン料金(公式サイトより)主な内容
Free(Hub利用)無料RTEBリーダーボード閲覧・公開モデルの利用
Pro月額$9(約1,400円)個人向け高度機能
Team月額$20/ユーザー(約3,100円)組織向け、クレジットカード決済
Enterprise要問い合わせ大規模組織向け、営業相談

※円換算は1ドル=約155円で計算した目安です。為替により変動します。Hugging FaceはStripe決済を採用しており、解約はいつでも可能(ダッシュボードから操作)と公式ドキュメントに記載されています。

RTEBを今すぐ無料で試して埋め込みモデルを選定する(無料・クレジットカード不要)

RTEBの実際の使い方と体験

公式チュートリアルを見ると、RTEBの利用フローは以下のように整理されています:

  1. Hugging Face Hub上のMTEBリーダーボードにアクセス
  2. 「Retrieval」セクションに新設されたRTEBタブを選択
  3. 言語・ドメイン・モデルサイズで絞り込み
  4. NDCG@10スコアで上位モデルを比較
  5. 気になるモデルのHubページに飛んで詳細を確認

無料プランで試したところ、初回設定は不要で、ブラウザで直接リーダーボードを閲覧できる仕組みでした。自分のモデルを評価したい場合は、MTEBのGitHubリポジトリで提供される評価スクリプトを利用します。

X(旧Twitter)やLinkedInでは、RTEB公開直後から「公開ベンチマークでの過学習問題に正面から取り組んだ点が評価できる」「エンタープライズ用途のモデル選定がやりやすくなった」という声が見られます。

RTEB vs MTEB:どちらを使うべきか

項目RTEBMTEB(従来)
主な機能検索特化、汎化性能評価埋め込みモデル総合評価
データセット公開度ハイブリッド(公開+非公開)すべて公開
料金無料無料
日本語対応○ 20言語に含む○ MTEB多言語版あり
主要評価指標NDCG@10タスク別(複数指標)
特徴業務寄り・過学習検知学術的網羅性が高い

結論として、RAGや業務検索システムを構築する開発者はRTEBを、純粋に研究目的でモデル比較を行う場合はMTEBを参照するのが合理的です。

こんな人におすすめ / こんな人には向かない

こんな人におすすめ:

  • RAGシステムを本番運用しているエンジニア・開発者
  • 業界別(法務・医療・金融)の検索精度を重視するチーム
  • 埋め込みモデル選定で「ベンチマーク数値と実運用ギャップ」に悩んでいる方
  • 多言語対応モデルを日本語タスクで評価したい方

こんな人には向かない:

  • テキスト以外(画像・音声)の埋め込み評価が必要な方 → 公式ブログによると現時点ではテキスト専用。マルチモーダル対応は将来計画
  • 中国語・アラビア語など特定言語に強い特化を求める方 → 公式は「言語拡張中」と明記
  • そもそも自社で埋め込みモデルを使わず、汎用LLM APIのみで完結する方 → ChatGPTやClaudeの直接利用で十分なケースあり

総合評価

★★★★☆(4.5/5)

業務利用を前提とした「過学習を防ぐ」設計思想と、エンタープライズドメインへの配慮が秀逸。日本語タスクが含まれている点も評価できます。ベータ版のため今後のデータセット拡充と中国語等の言語追加に期待。

まとめ:埋め込みモデル選定はRTEBで一段階レベルアップする

要点を整理します:

  • RTEBは公開+非公開データセットのハイブリッド戦略で、ベンチマーク過学習を検知できる新標準
  • 日本語を含む20言語・法務/医療/金融など業界別タスクをカバー
  • 無料で利用可能、Hugging Face MTEBリーダーボードからアクセス

こんな方には特におすすめです: RAGや業務検索を本番運用していて、埋め込みモデル選定で「ベンチマーク数値と実運用結果が一致しない」課題を感じている開発者・エンジニア。公開データだけでなく非公開データでの性能差を見ることで、より信頼性の高いモデル選定ができます。

RTEBで埋め込みモデルの真の精度を今すぐ確認する(無料・クレジットカード不要)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

CAPTCHA


目次