
あなたのAIチャットボットは、たった今「法的拘束力を持つ従業員」になった。ほとんどの企業がまだ気づいていない。
Moffatt対Air Canadaの判決が下されてから数か月後、私はある見込み客との電話中だった。従業員200人ほど、急成長中の中堅フィンテック企業だ。彼らは人気のGPTラッパーを使って顧客向けチャットボットを構築していた。洗練されたUI。親しみやすいトーン。顧客に大好評だった。
私はひとつだけ質問した。「あなたのボットが誤った金利を提示したら、どうなりますか?」
沈黙。そしてCTOがこう言った。「そんなことは起きません。良いプロンプトを用意していますから」
私は画面にその判決を呼び出し、審判所がAir Canadaは「AIチャットボットと自らを切り離すことはできない」と述べた一節を彼らに読み上げた。同社はボットが生成したあらゆる言葉について、人間の従業員が言ったのと同様に責任を負う、と。そしてその航空会社の抗弁——チャットボットは基本的に「独立した法人格」であり、自らの過ちに責任を負うと主張したこと——は、司法的な軽蔑に近いものをもって退けられた。
CTOの表情が変わった。というのも、その判決が実際に意味するのはこういうことだからだ。もしあなたのAIチャットボットが、5%の環境で顧客に2%の金利を約束したり、存在しない返金ポリシーをでっち上げたり、保証条項をハルシネーションしたりすれば——おめでとうございます、あなたの会社はたった今、契約を結んだのです。比喩ではなく。法的に。
そして最も恐ろしいのは?エンタープライズAIを構築しているほとんど誰もが、このことを腹に落としていないことだ。
あらゆるAIチャットボットのリスクプロファイルを書き換えた判決
実際に何が起きたのかをお話ししよう。Moffatt訴訟についてだ。詳細は見出しが示唆した以上に重要だからだ。
Jake Moffattの祖母が亡くなった。彼はAir Canadaのウェブサイトを訪れ、チャットボットを見つけ、忌引き運賃について尋ねた。チャットボットは——自信たっぷりに、流暢に、こうしたシステムが最適化されている親切なトーンで——今すぐ正規料金のチケットを購入し、90日以内に忌引き割引を申請すれば一部返金が受けられる、と彼に告げた。
そんなポリシーは存在しなかった。同航空会社の実際の規則は、運賃規定書類や静的なページに埋もれており、正反対のことを述べていた。搭乗後の遡及的な返金は不可、と。チャットボットは、もっともらしく聞こえるポリシーをハルシネーションしていた。なぜなら統計的に、「忌引き」「返金」「90日」といった語句のパターンは、業界を通じて航空会社のポリシー文書の中で頻繁に共起するからだ。
Moffattが返金を求め、Air Canadaが拒否すると、彼は同社を審判所に訴えた。Air Canadaの弁護士は、私が今でも仰天するような主張を展開した。彼らはチャットボットを独立した法人格として扱うべきであり、自らの発言に責任を負う、と主張したのだ。正しい情報はウェブサイトの別の場所で入手可能だったのだから、会社は義務を果たした、と。
審判所はこれを単に退けただけではなかった。審判所メンバーのChristopher Riversは、本質的にこう述べた。人間のエージェント、静的なウェブページ、そしてインタラクティブなボットの間に、意味のある区別は存在しない。それらはすべて、会社が顧客に話しかけているのだ、と。
あなたのAIがそう言ったなら、あなたの会社がそれに署名したのだ。審判所は、ハルシネーションはソフトウェアのバグではない——過失による不実表示である、と確立した。
その判決から、すべてのCTOを夜も眠れなくさせるはずの3つの先例が生まれた。統一された責任。情報がHTMLテキストから来ようとニューラルネットワークから来ようと関係ない——それはすべて会社の表明である。注意義務。検証されていない確率モデルをポリシーの周知のためにデプロイすることは過失である。そして現行のアーキテクチャの大半を骨抜きにするもの。「ブラックボックス」抗弁は死んだ。あなたのAIシステムの内部的な複雑性は、法的保護をまったく提供しない。
損害賠償額は800ドルだった。しかしその先例は、将来の責任エクスポージャーにおいて数十億ドルの価値がある。
なぜ「良いプロンプト」ではあなたを救えないのか

多くのAIコンサルティング会社が聞きたがらないことについて、率直に言わせてもらいたい。検索拡張生成はコンプライアンスの解決策ではない。
私が最初にMoffatt訴訟の詳細を掘り下げ始めたとき、チャットボットが正しいポリシーにアクセスできなかったのだと分かるだろうと予想していた。それなら単純な検索の失敗——修正可能で、理解できるものだ。ところが、私が見つけたのはもっと悪いものだった。チャットボットは実際に、正しい忌引きポリシーのページへのリンクを提供していたのだ。正しい文書を持っていた。ただ、それを誤って要約しただけだった。
これが「RAGを追加すればいい」という筋書きを打ち砕く故障モードだ。チャットボットは正しいコンテキストを検索したにもかかわらず、答えをハルシネーションした。
その理由はこうだ。大規模言語モデルは確率エンジンである。訓練データ内の統計的パターンに基づいて、次に来る可能性の高いトークンを予測する。LLMが「返金は90日以内に可能です」と言うとき、それは規則データベースを照会しているのではない。訓練中に取り込んだ何百万もの文書——無数の異なる企業の無数の異なる返金ポリシーを含む文書——に基づいて統計的に確率の高い文のパターンを補完しているのだ。
モデルに正しい文書を与えることは役に立つ。しかし検索されたテキストが複雑であれば、法律用語が難解であれば、従属節の中に微妙な否定が埋もれていれば——モデルは検索されたコンテキストを無視し、事前訓練されたバイアスを優先しかねない。これは稀なエッジケースではない。パラメトリックメモリ優位性と呼ばれる既知の故障モードであり、コンプライアンスにとって最も重要な、まさにこの種の複雑なポリシー言語において、より頻繁に発生する。
私はこれを直接目にした。ヘルスケア分野のあるクライアント向けにプロトタイプをテストしていたとき、システムは正しい薬物相互作用データをコンテキストウィンドウ内に持っていた——文字通りプロンプトの中にそこにあった。それでもモデルは、「重篤な相互作用」の警告を「軽度の注意」へと和らげた応答を生成した。なぜなら訓練データでは、これら2つの薬剤を一緒に扱ったテキストのほとんどが、リスクを最小化する文脈で現れていたからだ。検索は完璧だった。生成は危険だった。
RAGは知識を提供するが、遵守を保証するものではない。厳密な論理問題を、確率エンジンだけで解くことはできない。
数字がこれを裏付けている。AIハルシネーションに起因する世界的損失は2024年に674億ドルに達した。最も優れたフロンティアモデルでさえ——GPT-4o、Gemini 2.0——タスクの複雑さに応じて0.7%から3%の基準ハルシネーション率を保持している。これは計算するまでは小さく聞こえる。月間100万件のクエリを0.7%のハルシネーション率で処理する銀行のAIアシスタントは、7,000件の潜在的な規制違反を生み出す。毎月だ。
そして企業はすでに、この信頼性の低さに対して隠れた税金を支払っている。Forresterの推計では、ハルシネーションの緩和コストはおよそ従業員1人あたり年間14,200ドルの生産性損失に達する——単独では信頼できないAIの仕事を人間がダブルチェックするためだ。ハルシネーション検出ツールの市場は2023年から2025年の間に318%成長した。それは問題が解決されつつある兆候ではない。それは、根本的に欠陥のあるアプローチを必死につぎはぎしている業界の兆候だ。
嘘をつけないチャットボットとはどのようなものか?

ある瞬間があった——チームとの深夜のアーキテクチャセッション中に起きたので、はっきりと覚えている——核心的なアイデアが腑に落ちた瞬間だ。私たちはコンプライアンスのユースケースでLLMを「より正確にする」方法について議論していた。より良いプロンプト。より良い検索。ドメインデータによるファインチューニング。すると、私のエンジニアの一人が会話を止めるようなことを言った。「なぜ私たちはモデルに正確であることを求めているのですか?それは正確さのために設計されていません。流暢さのために設計されているのです」
彼女は正しかった。そしてその捉え直しが、私たちの構築方法についてすべてを変えた。
答えは、確率モデルの確率性を下げることではない。答えは、そもそもモデルに意思決定をまったくさせないことだ、リスクが高いときには。
私たちはこれを決定論的アクションレイヤーと呼んでいる——ユーザーとLLMの間に位置し、交通整理役として機能するミドルウェアコンポーネントだ。顧客が天気について尋ねたり、メールの下書きの手伝いを求めたりするとき、LLMは得意なことをする。流暢で、親切で、創造的なテキストを生成するのだ。しかし会話が返金、価格設定、法的条項、保証、プライバシーポリシー——誤った答えが責任を生じさせるあらゆること——に触れた瞬間、システムはモードを完全に切り替える。
LLMに自らの重みから答えを生成させる代わりに、決定論的アクションレイヤーはハードコードされたロジックを起動する。データベースクエリ。決定木。事前に書かれ、法的に精査された応答テンプレート。LLMの役割は「作者」から「翻訳者」へと縮小する——結果を丁寧な文章に言い換えることはできても、情報を追加、削除、再解釈することはできない。
こう考えてみてほしい。もしMoffattのチャットボットがこのアーキテクチャを持っていたら、こうなっていただろう。セマンティックルーターが意図——bereavement_refund——を検出する。忌引き返金ポリシーが通常どう述べているとモデルが考えるかに基づいて即興させる代わりに、決定論的な関数を実行する。if ticket_status == 'flown' return NO_REFUND。応答はこう返ってくる。「当社のポリシーは、旅行後の返金を厳格に禁止しています。参照:運賃規定第45条」。退屈だ。法的に完璧だ。まさに必要とされていたものだ。
私はこのアーキテクチャについて私たちの研究のインタラクティブ版で詳しく書いたが、核心的な洞察はシンプルだ。会話とコンプライアンスを分離せよ。ニューラルネットワークには、人間の言語の乱雑で美しい多様性を扱わせよ。決定論的なコードには、間違えることが金銭を犠牲にする部分を扱わせよ。
サイレンスプロトコル
私たちが使う特定の設計パターンがあり、それはどんなアーキテクチャ図よりも哲学をよく捉えていると思う。私たちはそれをサイレンスプロトコルと呼んでいる。
ユーザーが、私たちが「コンプライアンス上重要」と分類したトピックについて尋ねると、生成AIの創造的能力は事実上ミュートされる。システムは「作者」モードから「読み手」モードに切り替わる。データベースから正確なテキストを検索し、それをそのまま提供するか、信頼できるソースからの変数で厳格なテンプレートを埋める。
そしてここが、一部のプロダクトマネージャーを不快にさせる部分だ。ユーザーがポリシーのギャップに該当する質問——決定論的な規則が存在しない箇所——をした場合、システムは即興しない。こう言うのだ。「その質問には直接お答えできません。人間の専門家におつなぎします」
ある見込み客がこれに強く反発してきた。「ユーザーは即座の答えを求めている」と彼は言った。「『わかりません』と言うチャットボットは壊れているように感じる」
私は彼に尋ねた。どちらがより壊れているように感じるか。「人間におつなぎします」と言うチャットボットか、それとも返金ポリシーをでっち上げ、会社がそれを履行せざるを得なくなり、法務チームが6か月間ダメージコントロールに追われるチャットボットか、と。
法的な観点では、契約条項に関する創造性は捏造と同義である。エンタープライズAIの最も価値ある機能は、それが何を言えるかではない——それが何を言うことを防がれているかだ。
私たちがコンプライアンストピックについて創造性を無効化するのは、Moffatt以後の世界では、ポリシーを「親切に」即興するAIとは、許可なくリアルタイムであなたの契約を書き換えているAIだからだ。
システムはどうやって何が危険かを知るのか?
これは私が最も頻繁に受ける質問であり、まさに正しい問いだ。このアーキテクチャが機能するのは、ルーティングレイヤー——交通整理役——が「あなたの会社の沿革を教えて」(LLM生成に安全)と「これの返金は受けられますか?」(決定論的に処理されなければならない)を確実に区別できる場合に限られる。
私たちはセマンティックルーティングを使う。これは古いチャットボットシステムの脆いキーワードマッチングとは根本的に異なる。「refund(返金)」を探すキーワードシステムは、「お金を返してほしい」や「払い戻してもらえますか」を見逃すだろう。セマンティックルーティングは、ユーザーのクエリを高次元のベクトル埋め込みに変換し、制限対象トピックのために事前定義された正準的な例と比較する。
重要な詳細。このルーティングレイヤーは、LLMのコンテキストウィンドウの外側に位置する。これはセキュリティにとって非常に重要だ。プロンプトインジェクション攻撃——ユーザーがモデルに指示を無視させるよう仕組んだ入力を作成する攻撃——は、現実の、そして増大しつつある脅威だ。しかし、クエリがモデルに到達する前にルーティングの決定が行われるなら、そうした攻撃はコンプライアンスロジックにとって無関係になる。そもそもモデルに鍵を渡さないシステムは、ジェイルブレイクできない。
機密性の高い意図が検出されると、私たちは関数呼び出しを使う——現代のLLMにおける能力で、モデルが自由形式のテキストではなく構造化データ(特定の関数を呼び出すJSONオブジェクト)を出力するものだ。LLMは会話からパラメータ——チケットID、購入日、旅行日——を抽出し、それらを決定論的なコードブロックに渡す。Python。SQL。実際のビジネスロジックを実行するものなら何でも。モデルは決して返金額を計算しない。決して資格を判断しない。自然言語をAPI呼び出しに翻訳し、APIの応答を自然言語に翻訳し返すのだ。判断はコードによって行われ、確率によってではない。
ルーティングアーキテクチャ、関数呼び出しのパターン、そして私たちの検証パイプラインの完全な技術的解説については、私たちの技術詳細解説をご覧いただきたい。
規制の壁が迫っている
Moffattの先例が十分な動機付けでなかったとしても、規制環境が決定論的なガードレールを選択の余地のないものにしようとしている。
そのEU AI法は、多くの顧客向けAIシステム——特に運輸、銀行、必須サービスにおけるもの——をハイリスクに分類している。第14条は人間による監督を義務付ける。システムは、人間が出力を解釈し、介入し、停止ボタンを押せるように設計されなければならない。ブラックボックスのLLMラッパーはこれを満たさない。決定論的アクションレイヤー——コンプライアンス担当者がシステムが実行する規則を書く——は満たす。
GDPR第22条は、法的またはそれに準ずる重大な影響を伴う決定が、もっぱら自動化された処理に基づいて下されることに服さない権利を個人に付与する。返金の拒否は重大な影響だ。融資申請の拒否は重大な影響だ。顧客が「なぜ私は拒否されたのか?」と尋ねたとき、ニューラルネットワークはその推論を説明できない。なぜなら推論を持っていないからだ——持っているのは統計的な重みだ。決定論的なロジックツリーは、正確なノードを指し示せる。「信用スコアが閾値未満」または「チケットステータス:搭乗済み」と。
そしてISO 42001——AIガバナンスのための最初の世界標準——は、組織に対し、確率的ロジックと決定論的ロジックがどこで使われているかをマッピングし、ハルシネーション率を測定し、完全な監査証跡を維持することを求める。私たちは、この標準に対して監査対応可能であるよう、アーキテクチャを特別に設計した。すべての対話、すべてのルーティング決定、すべてのポリシー実行が、追跡可能なロジックパスとともに記録される。
これは理論上のコンプライアンスではない。私は、これらのフレームワークを理由に自社のAIデプロイメントを積極的に見直しているエンタープライズの法務チームと部屋に座ってきた。今のうちにガードレールを構築する企業は、後からコンプライアンスを後付けしようと奔走する企業よりも、速く、より広範にAIをデプロイするだろう。
「でも、これは高くつくのでは?」
人々はいつもこれを私に尋ねるし、その直感は理解できる。セマンティックルーティング、決定論的ロジックレイヤー、ナレッジグラフ、検証パイプラインを構築すること——それはAPI呼び出しをきれいなUIで包むよりも、間違いなく複雑だ。
しかし、質問を捉え直させてほしい。それを構築しないことのコストは何か?
Air Canadaの損害賠償は800ドルだった。しかし訴訟費用はそれをはるかに上回った。評判の損害——「航空会社が自社のチャットボットは独立した法人格だと主張」が世界中の笑いものになった——は計り知れない。しかもそれは、たった1件の忌引き運賃に関する、たった1回の対話だった。
さて、融資承認をハルシネーションする金融サービスのチャットボットを想像してみてほしい。薬物相互作用の警告を和らげるヘルスケアのボット。補償条件をでっち上げる保険のボット。もはや800ドルの話ではない。集団訴訟の領域の話だ。
企業が現在ハルシネーションの緩和に費やしている従業員1人あたり年間14,200ドル——誰もAIの出力を信頼しないため、人間が手作業でそれを検証している——それが「安い」AIの本当のコストだ。ラッパーは構築が安く、運用が高い。決定論的なアーキテクチャは構築が高く、信頼するのが安い。
これは次に来るものについての話だ
現在のチャットボットの議論を超えたことで締めくくりたい。というのも、Moffatt判決は、はるかに大きな転換のプレビューだと私は考えているからだ。
私たちはAIチャットボットの時代から、AIエージェントの時代へと移行しつつある——質問に答えるだけでなく、行動を起こすシステムだ。フライトを予約する。送金する。請求を承認する。契約に署名する。「ユーザーが情報を検証すべきだ」という法的擬制は、チャットボットに適用されたときですでに弱かった。自律的に取引を実行するエージェントに適用されると、それは完全に成り立たない。
金銭、契約、または規制対象の決定に触れるAIをデプロイするあらゆる企業は、自覚しているかどうかにかかわらず、今まさに選択を行っている。彼らは、AIの創造性が決定論的ロジックによって制限されるシステム——機械が厳格に強制されたガードレール内で流暢かつ親切であり得るシステム——を構築しているか、あるいは、企業ポリシーを一度に1つのハルシネーションずつ書き換える法的権限を持つ、雄弁で監督されていないエージェントをデプロイしているかのどちらかだ。
私は、その線のどちら側にいたいかを知っている。法律がどちら側を要求することになるかを知っている。
あなたのチャットボットは、法的拘束力を持つ従業員だ。それは、企業資金を扱う人間の従業員と同じ訓練、同じ監督、同じ厳格な境界を必要とする。新入社員に、雰囲気で返金ポリシーをでっち上げさせたりはしないだろう。あなたのAIにも、それをさせてはならない。
ブラックボックス抗弁は死んだ。ラッパーの時代は終わりつつある。そして、決定論的アクションレイヤーを最初に解明する企業は、責任を回避するだけではない——彼らは、AIを自社のビジネスの中で最も重要な部分へと実際にスケールさせる企業になる。なぜなら、彼らこそが、そのシステムを信頼できる企業だからだ。
問題は、あなたのAIが十分に賢いかどうかではない。それが、いつ黙るべきかを知っているかどうかだ。