AIは安くなったのに、なぜ請求書は増えるのか ── エージェント時代の「隠れコスト」との付き合い方

「AIの利用料、思ったより高くつきますね」。最近、現場でこの声をよく聞きます。

ニュースでは「AIはどんどん安くなっている」と言われます。実際それは本当です。
ところが会社に届く“AIの請求書”は、むしろ増えている。この一見おかしな現象が、いま多くの企業で起きています。

今日はその「逆説」の正体と、中小企業がAI費用で損をしないための考え方を、できるだけ平易に整理します。
（先日の「PoCの谷＝試しても成果が出ない問題」の続編にあたります。今日は“成果は出ても、割に合わなくなる”コストの話です。前回の記事「PoCの谷」はこちら）

単価は「年に10倍」下がっている、は本当
それでも請求書が増える理由は「回数」
中小企業が「コストで損しない」ための4つの実務
まとめ ── 「安いから無制限」ではなく「測って、上限を決めて、広げる」
1. 参考（出典）

単価は「年に10倍」下がっている、は本当

まず良いニュースから。AIの単価（処理1回あたりのコスト）は、猛烈な勢いで下がっています。

ベンチャーキャピタルのa16zは、この現象を「LLMflation（LLMのデフレ）」と名づけ、
「同じ性能のAIなら、推論コストは1年で約10分の1になる」ペースだと整理しています。
例として、2021年に100万トークンあたり約60ドルだった品質が、今では約0.06ドル、という桁違いの下落を挙げています。
（出典：a16z）

ただし注意点もあります。AI研究機関のEpoch AIは、この値下がりは速いものの「用途によってムラがある」と指摘しています。
安くなりやすい使い方と、そうでない使い方がある、ということです。
「AIは何でも一律に安くなる」と思い込むと、見積もりを外します。（出典：Epoch AI）

それでも請求書が増える理由は「回数」

ではなぜ、単価が下がっているのに総額は増えるのか。
答えはシンプルで、“1回いくら”が下がっても、“何回使うか”が大きく増えているからです。

カギは、AIの使われ方が変わったこと。
これまでのAIは「質問に1回答えて終わり」でした。ところが最近のAIエージェントは、ツールを使い、考え、やり直しながら、ひとつの作業を自分で進めます。
その過程で、AIは1つのタスクを終えるのに、裏で何度もLLMを呼び出します。

コンサルティング会社のEYは、この変化を具体的な数字で示しています。
カスタマーサポートの1対応あたりのコストが、2023年の約0.04ドルから、2026年には約1.20ドル（およそ30倍）に増えた、という試算です。
単価が下がっても、処理が複雑になり呼び出し回数が増えれば、1件あたりの総額はむしろ跳ね上がる——これが「隠れコスト」の正体です。（出典：EY）

さらにEYは、トークン代だけが費用ではない、とも指摘します。
裏側で動く実行環境、暴走を防ぐためのガードレールや人による監視、社員の再教育、AIが間違えたときの手戻り——
こうした“見えない費用”を足し忘れると、後から請求書を見て驚くことになります。

中小企業が「コストで損しない」ための4つの実務

大企業の話に聞こえるかもしれませんが、考え方は規模を問いません。
EYが挙げる枠組み（同社は “Agent FinOps” と呼びます）を、中小企業向けにかみ砕くとこうなります。

1. まず「1件いくらか」を測る

感覚で語らないこと。よく使う業務を1つ選び、「この処理をAIで1回回すと、だいたい何円か」を実際に測ります。
単価ではなく“1件あたりの総額”が、判断の出発点です。

2. 広げる前に「上限」を決める

EYが最重要に近い位置で挙げるのが、スケール（本格展開）の前にブレーキを仕込むことです。
月いくらまで、1日に何回まで、を超えたら止まる——という支出・回数の上限（サーキットブレーカー）を、
“使い倒してから”ではなく“広げる前”に設定します。AIは放っておくと24時間動き続けられるからです。

3. 誰が費用を見るか決める

小さな会社でも、「AIの請求書を毎月見る人」を1人決めるだけで景色が変わります。
誰の担当でもない費用は、気づいたときには膨らんでいます。

4. 「全部AI」にしない

すべてをエージェントに任せると、呼び出し回数は際限なく増えます。
簡単な定型処理は安い方法で、複雑な判断だけAIに——と切り分けるほど、費用対効果は安定します。

まとめ ── 「安いから無制限」ではなく「測って、上限を決めて、広げる」

AIの単価は本当に下がっている（a16zは「年10倍」と表現）。
でもエージェント化で“呼ぶ回数”が増え、総額はむしろ膨らむ（EYは1対応で約30倍の例）。
だからこそ大事なのは、①1件いくらか測る ②広げる前に上限を決める ③費用を見る人を置く ④全部AIにしない。

ちなみにEY記事は、ガートナーの予測として「エージェントAIの約4割が2027年末までに中止される見込み」（あくまで予測）も引いています。
その一因がコストの不透明さです。裏を返せば、コストを最初に設計できる会社ほど、AIを長く続けられるということ。

「試して終わり」でも「使って終わり」でもなく、“割が合う形で続ける”。
それが、これからAIを業務に入れる中小企業にとっての、地味だけれど効く一手です。

参考（出典）

a16z「Welcome to LLMflation ── LLM inference cost is going down fast」 https://a16z.com/llmflation-llm-inference-cost/
Epoch AI「LLM inference prices have fallen rapidly but unequally across tasks」 https://epoch.ai/data-insights/llm-inference-price-trends
EY「Agentic AI: enterprise token costs」 https://www.ey.com/en_us/insights/ai/agentic-ai-token-costs

※本記事の金額・倍率は各出典時点の試算・例示であり、為替・モデル・契約条件で変動します。「いくら」より「測って上限を決める」考え方としてお読みください。

この記事はAIが作成し、人が内容を確認して公開しています。