AIエージェントは「どこまで任せていいか」── 高得点でも本番で外す“信頼性”の測り方

「すごく賢いはずなのに、肝心なところで外す」。
AIエージェントを実際に業務へ入れた人が、よく口にする戸惑いです。デモでは完璧だったのに、毎日使うと時々おかしな結果を返す。これは“ハズレを引いた”のではなく、AIの実力と「任せていい範囲」がズレていることが原因かもしれません。

今日は、エージェントの「信頼性」をどう見極め、どこまで任せ、どう確かめるかを、最新の研究をもとに整理します。

実力は確かに伸びている ── ただし「50%成功」という但し書きつき
なぜ本番で外すのか ① 長い仕事ほど急に落ちる
なぜ本番で外すのか ② 「1回できた」と「毎日できる」は別
なぜ本番で外すのか ③ 「AIに採点させる」物差しも歪む
では、どこまで任せ、どう確かめるか（実務の4手）
まとめ ── “賢さ”ではなく“任せ方”の問題
参考

実力は確かに伸びている ── ただし「50%成功」という但し書きつき

まず前提として、エージェントの能力は着実に上がっています。

研究機関のMETRは、AIの実力を「点数」ではなく「時間」で測るという面白い指標を出しています。「AIが50%の確率で完遂できる、人間にとっての作業時間の長さ」を“時間horizon（タイムホライズン）”と呼び、これが約7ヶ月で倍増してきた、というものです。短い作業しかできなかったAIが、だんだん長い作業もこなせるようになってきた――その伸びを時間で可視化したわけです。

ただし、ここで見落としてはいけないのが「50%の確率で」という但し書き。これは「半分は失敗しうる難しさ」での到達点であって、「確実にこなせる長さ」ではありません。“できる”と“毎回できる”は違う――この記事の出発点です。

なぜ本番で外すのか ① 長い仕事ほど急に落ちる

同じくMETRのデータで、もっとも実務に効く事実がこれです。

人間で4分以下の短い作業 → ほぼ100%成功
人間で4時間超の長い作業 → 成功率10%未満

つまり、成功するかどうかは「AIが賢いか」だけで決まるのではなく、任せた仕事の“長さ・連続性”に強く左右されます。短く区切られた作業はほぼ確実にこなす一方、何工程も連続する長い仕事は、途中のどこか一箇所でつまずくと最後まで崩れてしまう。

しかも測る側にも限界があります。METRは「16時間を超える作業の測定は、現状の手法では信頼できない」とも注記しています。長すぎる仕事は、AIの成否を測ることすら難しいのです。

ポイント：失敗の最大要因は「能力不足」より「タスクが長すぎる」こと。だから対策は“賢いモデルを待つ”より“仕事を短く区切る”が先。

なぜ本番で外すのか ② 「1回できた」と「毎日できる」は別

もう一つの落とし穴が、ベンチマークの高得点と本番の信頼性の混同です。

AIの評価でよく使われるのが「pass@1」――1回試して成功すれば合格という見方。デモやベンチマークはこれに近い。けれど本番のエージェントは、同じ作業を1日に何百回も回します。効いてくるのは「何回試しても毎回成功するか（pass^k）」のほうです。

最近の研究も、単発の正答率ではなく繰り返しでの一貫性（信頼性）を測るべきだと提案しています（arXivの「Beyond pass@1」など）。長い手順では成功率がだんだん削れていく、という構造も指摘されています。

要するに、「デモで動いた」は「毎日使える」を意味しない。採用の判断材料を1回の成功にしてはいけない、ということです。

なぜ本番で外すのか ③ 「AIに採点させる」物差しも歪む

「だったらAI自身に出来栄えを採点させればいい」――そう考えて使われるのがLLM-as-a-judge（AIに評価役をさせる手法）です。これは便利ですが、物差し自体に偏りがあることが論文で繰り返し報告されています。

代表例が「位置バイアス」。同じ2つの回答でも、どちらを先に見せるかで評価が変わるというものです（arXiv「Judging the Judges」）。これは偶然では説明できず、採点役のAIやタスクによって大きく変動するとされます。ほかにも「長い回答を高く評価しがち（冗長さ）」「自分流の答えを好む（自己選好）」といった偏りが知られています。

つまり、AIの自己採点をうのみにすると、信頼性を見誤る。重要な評価ほど、人の目を併用する必要があります。

では、どこまで任せ、どう確かめるか（実務の4手）

ここまでの事実を、中小企業・現場の目線で実務に落とすと、こうなります。

短く・区切って任せる
長い連続作業を丸投げせず、人が結果を確認できる単位に分ける。失敗の最大要因が「長さ」なら、短くするだけで成功率は上がります。
取り返しのつく所から渡す
メール送信・支払い・対外公開など、やり直せない操作の手前には必ず人のチェックを置く。下書きまではAI、最終ボタンは人――が基本形です。
1回でなく“繰り返し”で判断する
採用の可否はデモ1回でなく、同じ作業を何度も走らせて当たり外れを見る。「たまに外す」を許容できる仕事か、できない仕事かで線を引きます。
AIの自己採点を過信しない
品質チェックを全部AI任せにしない。重要な評価は人＋AIの併用にして、物差しの偏りを前提に置く。

この4つは、特別なツールがなくても今日から運用ルールとして始められることばかりです。

まとめ ── “賢さ”ではなく“任せ方”の問題

AIエージェントは確実に賢くなっています。でも本番で外すのは、多くの場合「能力不足」ではなく「任せ方のミスマッチ」です。長い仕事を丸投げし、1回の成功で信用し、自己採点をうのみにする――この3つを避けるだけで、失敗はぐっと減ります。

大事なのは、AIを“どこまで”信じるかを、自分の物差しで決めること。短く区切り、取り返しのつく所から渡し、繰り返しで確かめる。これは「AIを試して終わらせない」「コストで損しない」という前回までの話と、同じ一本の線の上にあります。

「導入したけど、どこまで任せていいか分からない」――そんな段階こそ、いちばん伸びしろの大きいところです。

関連記事（あわせて読みたい）：
– 詳しくはこちら：AIを「試した」で終わらせない──95%が成果ゼロになる『PoCの谷』の越え方

参考

METR「Measuring AI Ability to Complete Long Tasks」 https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
METR「Task-Completion Time Horizons of Frontier AI Models」 https://metr.org/time-horizons/
arXiv 2406.07791「Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge」 https://arxiv.org/abs/2406.07791
arXiv 2603.29231「Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents」 https://arxiv.org/pdf/2603.29231

※本記事は複数の公開情報をもとに作成しています。

この記事はAIが作成し、人が内容を確認して公開しています。