AIがパソコンを「操作」する時代へ ── 「画面を触るAI」を仕事に入れる前に知る3つのこと

「AIに仕事を任せる」と聞くと、これまでは”文章を書く””質問に答える”といった、チャット欄の中で完結する話でした。ところがこの1〜2年で、AIはチャット欄から飛び出して、あなたのパソコンの画面そのものを操作し始めています。

ボタンをクリックし、フォームに入力し、ページをスクロールする。人間がマウスとキーボードでやっていた作業を、AIが”画面を見ながら”自分でこなす——そんな「コンピュータ操作エージェント」（英語では computer use や browser agent などと呼ばれます）が、主要なAI企業から次々に登場しました。

一見すると夢のような話です。でも、実際に中小企業の業務に入れる前に、知っておいてほしい現実が3つあります。今日はそこを、事実に基づいて整理します。

そもそも「画面を操作するAI」とは何か
知っておくこと①：まだ発展途上で、「撤退」もある
知っておくこと②：業界は「画面操作」より「API連携」へ
知っておくこと③：最大のリスクは「乗っ取り」
中小企業の「線引き」——どこに使い、どこに使わないか
まとめ
参考
あわせて読みたい

そもそも「画面を操作するAI」とは何か

ふつうのAI（チャットボット）は、聞かれたことに文章で答えるだけでした。対して「コンピュータ操作エージェント」は、スクリーンショットで画面を”見て”、クリック・入力・スクロールといった操作を自分で実行します。

うれしいのは、API（システム同士をつなぐ専用の窓口）が用意されていない作業にも手が届くこと。たとえば——

古くて連携機能のない業務システムへの入力
複数の管理画面や行政ポータルをまたいだ定型作業
サイトを見ながらの情報の突き合わせ・転記

こうした「人がブラウザでやるしかなかった作業」を、理屈のうえでは代行できます。まさに”手を動かすAI”です。

知っておくこと①：まだ発展途上で、「撤退」もある

ここからが本題です。まず押さえたいのは、この技術はまだ発展途上だということ。

主要3社の動きを並べてみると、それがよく分かります。

Anthropic の「Computer Use」 は2024年10月に登場した、この分野で最初の主要な商用サービスです。ただし現在もベータ（試験提供）の位置づけで、提供元自身が開発者に「まずは低リスクな作業から始めるように」と案内しています。
OpenAI の「Operator」 は2025年1月に個人向けのブラウザ操作AIとして始まりましたが、その後「ChatGPT Agent」という別の形に統合され、単体の製品としては短命でした。
Google の「Project Mariner」 は2024年12月に試作公開、2025年5月に正式提供と進みましたが、2026年5月に単体サービスとしては終了。技術はGoogleの他のAI基盤へ吸収される、とされています。

つまり、能力は本物でも、製品としてはまだ入れ替わりが激しい段階です。重要業務の土台にいきなり据えると、サービス変更や終了で”梯子を外される”リスクがあります。この「試したけど本番で続かない」構図は、以前お話ししたAIを「試した」で終わらせない──95%が成果ゼロになる『PoCの谷』の越え方とも重なります。

知っておくこと②：業界は「画面操作」より「API連携」へ

もうひとつの大きな流れが、“画面を人間のように操作する”方式より、”APIでしっかりつなぐ”方式へ、業界全体が舵を切りつつあることです。Project Marinerの終了も、その象徴として報じられています。

理由はシンプルで、画面操作は壊れやすく・遅いからです。ボタンの位置が少し変わっただけで動かなくなったり、1画面ずつ操作するぶん時間もかかります。一方、APIで直接つなげば速くて安定します。

だからこそ、AI同士・AIとツールを「つなぐ標準規格」の整備が今年のニュースになりました（この話はAIが「バラバラ」から「つながる」へ ── これから増える”AIエージェント連携”と、中小企業のツール選びで詳しく書きました）。中小企業としては、「まず自社のツールがAPIやその標準に対応しているか」を確認するのが、遠回りに見えて実は近道です。画面操作AIは、あくまで「APIが無い作業のための最後の手段」と位置づけると良いでしょう。

知っておくこと③：最大のリスクは「乗っ取り」

そして、いちばん大事なのがこれです。画面を操作するAIには、固有の大きな弱点があります。それが「プロンプトインジェクション」——ざっくり言えば、Webページに仕込まれた”隠し命令”にAIが乗っ取られる攻撃です。

なぜ危険かというと、次の3つが同時に成り立つからです。

AIがあなたのログイン済みの状態（認証情報）を使って操作する
Web上の文字を、AIが“指示”として読み取ってしまう（悪意ある隠し文をページに仕込める）
人が気づく前に、一連の操作を最後までやり切ってしまう自律性がある

つまり、乗っ取られると”あなたの権限で”勝手に操作される恐れがある、ということです。

これは軽視できない問題で、AI各社や当局も率直に認めています。あるAI企業は防御策で内部テストの攻撃成功率を大きく下げたと報告する一方で「問題は完全には解決していない」と明記し、別の企業や英国のサイバーセキュリティ当局は「完全には防ぎきれない可能性がある」と警告しています。実際、セキュリティ団体OWASPの報告でも、本番運用のAIエージェントのトラブルは今なおプロンプトインジェクションが主因とされています。

プロンプトインジェクションそのものの守り方は、以前まとめたAIエージェントを仕事に入れる前に──「プロンプトインジェクション」という落とし穴も参考にしてください。

中小企業の「線引き」——どこに使い、どこに使わないか

以上を踏まえた、現実的な線引きはこうです。

重要度の低い・失敗しても取り返せる作業から。お金の支払い、契約、顧客情報の送信など”取り返しのつかない操作”は、当面AIに握らせない。
API連携できる業務は、そちらを優先。画面操作AIは「APIが無いとき用」と割り切る。
ログイン権限は最小限に。AIに渡すアカウントは、必要な範囲だけの弱い権限に分ける。乗っ取られても被害を小さくできます。
最後は人が確認。特に外部サイトを見に行かせる作業は、結果を人が点検してから確定する。「どこまで任せるか」の考え方はAIエージェントは「どこまで任せていいか」── 高得点でも本番で外す“信頼性”の測り方も合わせてどうぞ。

まとめ

AIが”画面を触る”時代は、確かに始まりました。APIの無い作業まで自動化できる可能性はとても大きい。けれど今はまだ、①発展途上（撤退もある）②業界はAPI連携が本流 ③乗っ取りが最大リスク、という3つの現実があります。

だからこそ、飛びつくのではなく、小さく・弱い権限で・人の確認つきで試すのが正解です。まずは「失敗しても平気な作業」で1つ試してみる。それが、この新しい道具と上手につきあう第一歩です。

参考

あわせて読みたい

本記事は複数の公開情報をもとに作成しています。

この記事はAIが作成し、人が内容を確認して公開しています。