EコマースAIエンジニアリング
AIと関わる買い物客は、関わらない買い物客の4倍の率でコンバージョンします。しかし、たった一つの幻覚的な製品仕様、一つの捏造された返品ポリシー、一つの安全性を欠いたレコメンデーションがSNSで共有されれば、プロジェクト全体の節約額を上回るコストが発生します。当社は、EコマースAIを本当に信頼できるものにする検証・グラウンディング・コンプライアンスのレイヤーを構築します。
4倍
AIエンゲージメントによる高いコンバージョン
Envive、2026年(12.3%対3.1%)
9.2%
一般知識に対するAIの平均幻覚率
業界ベンチマーク、2025年
€35M
EU AI法による違反1件あたりの最大制裁金
EU AI法第99条、2026年8月施行
初めてのAIショッピングアシスタントを導入する場合でも、本番環境ですでに幻覚を起こしているものを修正する場合でも、GoogleのUniversal Commerce ProtocolやOpenAIのAgentic Commerce Protocolが戦略をどう変えるかを評価する場合でも、このページでは知っておくべきこと、そして信頼できるAIコマースを構築するために必要なことを解説します。
主要なAIコマースの障害はすべて、これら3つのアーキテクチャ上のギャップのいずれかに行き着きます。Amazon Rufusは2024年のローンチ時に3つすべてを同時に露呈しました。Klarnaは、3番目がショッピングを超えてカスタマーサービスにまで及ぶことを証明しました。これらは例外的なケースではありません。ほとんどのEコマースAIシステムの構築方法に内在する構造的な弱点です。
Rufusは買い物客に、スーパーボウルが間違った都市で開催されると伝えました。モデルが「愚か」だったからではなく、検索レイヤーが矛盾するWebソースを取得し、モデルの訓練データが取得されたコンテキストを上書きしたためです。グラウンドトゥルースのナレッジグラフに対する二次検証が存在しませんでした。
これはEコマースAIで最も一般的な障害です。システムは、もっともらしく聞こえるが捏造された仕様を含む製品説明を生成します。実際には16GBで出荷されるノートパソコンに32GBのRAMが搭載されていると記載されます。製造元が大豆を成分として記載しているサプリメントが「アレルゲンフリー」と説明されます。
そのコスト: 買い物客の46%はAIのレコメンデーションを信頼していません。89%は購入前にAIの情報を検証します。幻覚が起こるたびに彼らの懐疑心は裏付けられ、競合他社や手動検索へと向かわせてしまいます。
Rufusは、ジェイルブレイクを必要とせず、標準的な製品クエリを通じて火炎瓶の作り方を提供しました。検索レイヤーが有害なWebコンテンツを取得し、モデルがこの「新鮮な」コンテキストを安全性に関する指示よりも優先したのです。
これが起こるのは、ほとんどの安全ガードレールがプロンプトベースだからです。システムプロンプトには「有害な情報を提供しないこと」と書かれていますが、取得されたWebコンテンツにその情報が含まれていると、モデルはそれを権威あるコンテキストとして扱います。キーワードフィルタリングは明白なケースは捕捉しますが、意味的に同等な表現は見逃します。
そのリスク: コマース特有の安全性は、コンテンツモデレーションを超えるものです。「このサプリメントは私の血液をサラサラにする薬と相互作用しますか?」というのは、法的責任を伴う製造物責任の問題です。誤った医療情報を自信を持って回答するAIは、いかなるコンバージョンの利益をもはるかに上回る訴訟リスクを生み出します。
RufusはAmazonの返品ポリシーを説明できましたが、返品を処理することはできませんでした。注文状況について話すことはできましたが、確認することはできませんでした。AIレイヤーは取引バックエンドから機能的に切り離されていたのです。
Klarnaは、このギャップがカスタマーサービスにまで及ぶことを証明しました。同社のAIは230万件の会話を処理しましたが、複数ステップの解決、感情的に高ぶった紛争、実際のアカウント変更を要する事項では失敗しました。CEOのSiemiatkowski氏は品質への影響を公に認めました。2026年初頭までに、同社は人間のエージェントを再雇用していました。
その前例: Air Canadaのチャットボットは、忌引きによる返金ポリシーを捏造しました。裁判所は、チャットボットが「別個の法的主体」であるという主張を退け、航空会社に812カナダドルの責任があると判決しました。法的原則は明確です。AIが顧客に語るすべての言葉に対して、あなたが責任を負うのです。
Cornell Techは多様な英語の方言でRufusをテストし、アフリカ系アメリカ人英語、チカーノ英語、インド英語に対して体系的に低品質な応答が返されることを発見しました。顧客が「this jacket machine washable?」(連結動詞を省略する一般的なAAEの構文)と尋ねると、Rufusは適切に応答できなかったり、無関係な製品へ誘導したりしました。
これは逸話ではありません。あるドイツの研究では、10の主要な言語モデルを地域方言でテストし、方言話者を「教育を受けていない、または怒っている」と表現することが判明しました。AIショッピングアシスタントが多様な顧客基盤にサービスを提供している場合(オンラインで販売しているなら、それは当てはまります)、方言バイアスは、何のエラーログも生成することなく、顧客のかなりの部分にとっての体験を静かに劣化させます。
この表は、AIを導入する際にEコマースチームが評価する現実的な選択肢を網羅しています。「ギャップ」の列は正直です。一部のギャップはVeriprajnaが対処するものであり、一部はどのベンダーも完全には解決できない構造的な制約です。
| 選択肢 | 例 | 強み | 実際のギャップ |
|---|---|---|---|
| AI搭載検索・ディスカバリー | Bloomreach Loomi、Algolia NeuralSearch、Coveo RGA、Constructor.io | 製品ディスカバリーに特化して構築されています。強力なマーチャンダイジング制御。BloomreachのLoomi ConnectはMCP経由でChatGPTと統合します。Coveoの2026年3月のConversational Product Discoveryは、カタログデータに回答をグラウンディングします。 | ディスカバリーのみ。返品処理、保証請求の対応、取引ワークフローの実行はできません。クリーンな製品データを前提とします。複数のツールを使用する場合、ベンダー間の検証はありません。方言・公平性テストは限定的です。 |
| プラットフォームネイティブAI | Shopify Magic/Sidekick、SFCC Einstein、Adobe Sensei | 緊密なプラットフォーム統合。Shopify Sidekickは複数ステップのタスク(割引、キャンペーン、Flow自動化)を実行します。すでにプラットフォームを利用している事業者にとって低い導入コスト。 | 一つのプラットフォームのエコシステムに固定されます。複雑なカタログ(産業用部品、規制対象製品)に対するカスタマイズは限定的です。独立した検証レイヤーがありません。Sidekickは顧客向けの精度ではなく、事業者の業務を最適化します。 |
| エージェントプロトコル | Google UCP、OpenAI ACP、Shopify Buy SDK | Google UCPはShopify、Walmart、Targetが支持するオープン標準です。エージェントがディスカバリーからチェックアウトまでを処理できるようにします。OpenAI ACPはNordstrom、Sephora、Best Buyと統合し製品ディスカバリーを行います。 | 初期段階。OpenAIのInstant Checkoutは失敗しました(有効化したのは約12のShopify事業者のみ)。プロトコルはディスカバリーをうまく処理しますが、取引上の複雑さ(返品、交換、複数ステップのサポート)は未解決のままです。顧客との関係をエージェントプラットフォームに譲り渡すことになります。 |
| 自社構築(LLM + RAG) | GPT-4/Claude + ベクトルDB + 自社カタログによるカスタムスタック | アーキテクチャ、データ、UXを完全に制御できます。取引ワークフローを処理できます。自社固有のカタログとビジネスルールに合わせて調整されます。 | 最も高いエンジニアリング投資。幻覚の防止、安全性、レイテンシ最適化には深い専門知識が必要です。ほとんどのチームは、信頼できるRAGに必要なデータエンジニアリングを過小評価しています。継続的な保守負担。 |
| 大手小売業者の自社開発 | Amazon Rufus、Walmart Wallaby、TargetのChatGPT内アプリ | 膨大なスケール(Rufus:2億5,000万ユーザー、100億ドルの押し上げを予測)。WalmartのRetail Graphは製品ナレッジグラフのゴールドスタンダードです。数十年にわたる小売データで訓練された独自モデル。 | あなたには利用できません。これらは競争上の優位性であり、製品ではありません。Rufusは50以上の技術アップグレードを経てもなお精度の改善を続けています。Walmartのカテゴリーごとのグラフ構築には何年もかかりました。この能力を既製品として購入することはできません。 |
| Big 4 / 大手SI | Accenture、Deloitte、McKinsey、IBM watsonx | エンタープライズの信頼。大規模なチーム。エンドツーエンドの変革能力。IBM watsonxにはガバナンスとバイアス監視のツールが含まれます。 | 彼らはプラットフォームを実装するのであって、カスタムの検証アーキテクチャを構築するわけではありません。契約は50万ドルから500万ドル以上に及び、期間も長期です。ほとんどは、特注のソリューションをエンジニアリングするのではなく、自社のパートナーベンダー(Salesforce、Adobe)を推奨します。コマース特有のAI障害モードへの深い理解は乏しいです。 |
各機能は特定の障害モードに対処します。当社は、Bloomreach、Shopify、カスタム構築、あるいはそれらの組み合わせであっても、既存のスタックと並行して作業します。
当社は御社のPIMデータ(Akeneo、Salsify、Syndigo、その他お使いのもの)を監査し、カテゴリー別の属性完全性のギャップを特定し、AIが主張できる内容を制約する製品ナレッジグラフを構築します。カタログに複雑な互換性や代替関係(電子機器アクセサリー、自動車部品、ホームインプルーブメント)がある場合は、Neo4jを採用します。よりシンプルなカタログ(アパレル、消耗品)であれば、メタデータフィルタリングを備えた適切に構造化されたベクトルストアで、より低コストにこの作業を完遂できます。
すべての製品属性に信頼度タグが付与されます。検証済み、推論済み、または不明です。AIはそれに応じて応答を限定します。ジャケットが防水だと幻覚する代わりに、AIはこう述べます。「製品説明に基づくと、このジャケットは撥水性があるようですが、製造元は特定の防水等級を確認していません。」正直な不確実性は、自信に満ちた捏造に勝ります。
御社のLLM(Shopifyチャットボット、Bloomreach Loomi、カスタムRAG構築、あるいはエージェントプロトコル統合のいずれであれ)と顧客の間に位置する検証レイヤーです。AIが生成したすべての製品の主張は、提供される前にナレッジグラフに対して検証されます。
引用の強制:AIは、グラフのトラバーサルが裏付けない限り、製品に機能を帰属させることはできません。モデルがあるTVにHDR10+があると述べようとしても、製品ノードがHDR10しか記載していない場合、検証レイヤーがその誇張を捕捉し、応答を修正します。これは事後的な監視ではありません。すべての応答に対するインライン検証であり、複雑なクエリには200~400msを追加する一方、単純なナビゲーションクエリは検証を完全にスキップします。
コマース特有のリスクに対する意味的なインテント認識。キーワードフィルタリング(言い換えを見逃す)ではなく、インテント分類です。このクエリは製品の安全性に関するものか?医薬品の相互作用か?年齢制限のあるコンテンツか?規制対象の金融商品の比較か?各カテゴリーは異なる処理ルールを起動します。
EU AI法(2026年8月2日施行)のコンプライアンスのために、当社はAIインタラクションの開示、AI生成コンテンツのラベリング、意思決定の監査証跡、リスクティア分類のための技術インフラを構築します。御社のレコメンデーションエンジンがアクセスの決定(顧客がどの金融商品を目にするか、どの保険見積もりを受け取るか)を行う場合、それはAI法の下で最小リスクから高リスクへと移行します。当社は、御社の導入が正確にどこに該当するかを判断し、それに応じて実装します。
状態を変更する操作のための「サンドイッチ」パターン。最上層:AIが自然言語からインテントとパラメータを構造化スキーマ(注文ID、返品理由、返金方法)に抽出します。中間層:決定論的なビジネスロジックが御社のOMS/ERPルールに対して検証します(返品期間は開いているか?その商品は対象となるか?この製品カテゴリーの返金ポリシーは何か?)。最下層:検証が、顧客に成功を伝える前に、取引が正しく実行されたことを確認します。
これこそが、返品について話せるだけのショッピングアシスタントと、実際に返品を処理できるショッピングアシスタントを分けるものです。当社は、御社の既存のOMS(Shopify Orders API、Salesforce OMS、カスタムシステム)を置き換えるのではなく、それと統合します。AIが会話を処理し、決定論的なレイヤーがお金を処理します。
御社の顧客層に合わせて調整された、多様な英語の方言や多言語コンテキストにわたる体系的なレッドチーミング。当社は、構文のバリエーション(AAEにおける連結動詞の脱落、習慣のbe、インド英語における異なる冠詞の使用)、語彙の違い(sneakers対trainers対tennis shoes)、コードスイッチングのパターンを網羅したテストスイートを構築します。
アウトプットは公平性スコアカードです。標準アメリカ英語のベースラインに対して測定された、応答の品質、関連性、完了率です。「this jacket machine washable?」が「is this jacket machine washable?」よりも悪い結果を返す場合、そのギャップは測定され、報告され、クエリの正規化と再訓練データの調整を通じて修正されます。
御社の選択肢の独立した評価。プラットフォームを拡張する(Shopify Magic、SFCC Einstein)、ディスカバリーベンダーを採用する(Bloomreach、Algolia、Coveo)、エージェントプロトコルと統合する(Google UCP、OpenAI ACP)、あるいはカスタム構築する。決定は、カタログの複雑さ、トラフィックパターン、規制上のエクスポージャー、既存の技術スタックによって異なります。
当社は各選択肢を御社固有の要件に照らして評価し、ビルド対バイの境界、ベンダー選定基準、統合設計、そして現実的なタイムラインを伴うアーキテクチャの推奨を作成します。プラットフォームへの忠誠はありません。Bloomreachが御社のディスカバリーの問題を解決し、取引完全性のためにカスタム作業のみが必要であれば、それを推奨します。
検証ミドルウェアが本番環境でどのように機能するかの具体的な例です。このシナリオは、AIが製品仕様を誇張する一般的な障害パターンに基づいています。
クエリ分類
ルーティングレイヤーは、これをナビゲーション(サウンドバーを見せて)でも取引(このサウンドバーを返品して)でもなく、アドバイザリークエリ(製品能力に関する質問)として分類します。アドバイザリークエリは検証パスを経由してルーティングされます。
LLMが応答を生成
LLMは製品説明とレビューを取得し、次のように生成します。 「はい、Sony HT-A5000は5.1.2チャンネル構成と360 Spatial Sound MappingでDolby Atmosに対応しています。」
検証レイヤーが主張を確認
検証レイヤーは3つの主張を抽出します。(a) Dolby Atmos対応、(b) 5.1.2チャンネル構成、(c) 360 Spatial Sound Mapping。それぞれについて製品ナレッジグラフに問い合わせます。グラフはDolby Atmos(製造元の仕様書経由で検証済み)と360 Spatial Sound Mapping(検証済み)を確認します。しかし、グラフはスタンドアロンユニットが オプションのリアスピーカー付きで5.1.2であり、スタンドアロンの5.1.2ではないことを示します。基本構成は5.1です。
修正された応答が提供される
検証済みの応答: 「はい、Sony HT-A5000はDolby Atmosに対応し、360 Spatial Sound Mappingを搭載しています。基本ユニットは5.1チャンネルを提供します。オプションのSA-RS5リアスピーカーを追加すると、5.1.2構成にアップグレードされます。」 顧客は正確な情報を得ます。リアスピーカーのアップセルの機会は保たれます。虚偽の主張は一切なされません。
なぜこれが商業的に重要なのか: 修正されていない応答であれば、顧客に箱から出してすぐ5.1.2が得られると伝えていたでしょう。サウンドバーが届いて、約束された構成を得るために350ドルの追加スピーカーが必要だと判明したとき、あなたは返品と星1つのレビュー、そして二度と御社のAIを信頼しない顧客を抱えることになります。修正のコストは300msのレイテンシです。幻覚のコストは1人の顧客です。
評価から本番稼働までの段階的な契約。各フェーズは、独立して実行に移せる成果物を生み出します。
第1~3週
当社は御社の現在のAI導入を監査します(まだ導入していない場合は選択肢を評価します)。これは、カテゴリー別のカタログデータ品質、既存のAI精度率、安全性ギャップ分析、規制上のエクスポージャーのマッピング(EU AI法のティア分類)、ベンダー評価を網羅します。
成果物: アーキテクチャの推奨、ビルド対バイの境界、ベンダーの最終候補リスト、リスク登録簿、推定タイムラインを含む評価レポート。実装で当社と契約するか否かにかかわらず、実行に移せる内容です。
第4~10週
御社のPIMデータから製品ナレッジグラフを構築し、属性の信頼度スコアリングを実装し、テストカテゴリーで検証ミドルウェアを展開します。御社の既存のLLM/検索プラットフォームと統合します。方言と公平性のテストスイートをセットアップします。該当する場合、EU AI法のコンプライアンスインフラを構築します。
成果物: 一つの製品カテゴリーで動作する検証レイヤー、測定可能な精度の改善、公平性スコアカード、御社固有の導入のために完成したコンプライアンスチェックリスト。
第11~16週
検証をカタログ全体に拡大します。返品/交換/保証のワークフローのために取引完全性レイヤーを展開します。本番モニタリングをセットアップします。幻覚率の追跡、応答レイテンシのダッシュボード、方言バイアスのドリフト検出、安全性インシデントのアラート。
成果物: モニタリングダッシュボード、一般的な障害モードのためのランブック、継続的な運用のためのチームトレーニングを備えた、本番対応可能なシステム。当社チームがオンコール待機する30日間の安定化期間を含みます。
タイムラインに関する注記: WalmartのRetail Graphは、何年もかけてカテゴリーごとに構築されました。当社はWalmartではなく、当社のクライアントのほとんどもそうではありません。16週間のタイムラインは、御社の最もリスクの高いカテゴリーで動作する検証システムを対象とします。カタログ全体のカバレッジと継続的な改善は、それを超えて続きます。当社は最初から現実的な期待を設定します。なぜなら「AIプロジェクトが予定通りに完了」が、このページ上の幻覚であってはならないからです。
これらの質問に答えて、信頼できるAIコマースに対する御社の準備状況を評価してください。結果は、当社と協業するか否かにかかわらず活用できる、実行可能な次のステップを伴う具体的な準備状況スコアを示します。
1. 御社の製品データの状態はどうですか?
2. 現在どのようなAIコマース機能を運用していますか?
3. EU内またはEU向けに販売していますか?
4. 御社のカタログには規制対象または安全性に敏感な製品が含まれますか?
5. 御社の顧客基盤は言語的にどれほど多様ですか?
御社のEコマースAI準備状況スコア
手短に言えば、リスクの高いクエリには小さなレイテンシの増加を受け入れ、リスクの低いクエリには検証をスキップします。
当社は階層化された検証アーキテクチャを構築します。単純なナビゲーションクエリ(「100ドル以下の青いランニングシューズを見せて」)は、御社の製品カタログに対するベクトル検索を伴う高速パスを通り、通常200ms未満です。これらは低リスクです。なぜなら、回答が御社のカタログに存在するものに制約されているからです。
複雑なアドバイザリークエリ(「このノートパソコンは動画編集に向いていますか?」)は、AIの主張を御社の製品ナレッジグラフに照らして相互参照する検証レイヤーを経由してルーティングされます。AIがノートパソコンに32GBのRAMがあると述べた場合、応答が顧客に届く前に、グラフがその主張を確認または却下します。これは200~400msを追加しますが、信頼を損なうような幻覚的な仕様を防ぎます。
取引クエリ(「注文を返品して」「このクーポンを適用して」)は、実行のためにLLMを完全にバイパスし、ACID準拠の決定論的なAPI呼び出しにルーティングされます。AIはインテント抽出と自然言語を処理しますが、実際の状態変更は検証済みのビジネスロジックを通じて行われます。
実際には、ショッピングクエリの70~80%はナビゲーションであり、高速パスに当たります。検証のレイテンシコストは、精度が最も重要となる20~30%のクエリに集中します。ほとんどの購入者は、このトレードオフをこのように提示されれば、その明白さに気づきます。
それは御社のカタログの複雑さと、AIが検索を超えてどれだけのことをする必要があるかによります。
Bloomreach Loomi、Algolia NeuralSearch、Coveo Conversational Product Discoveryは、製品ディスカバリーにとって強力な選択肢です。これらは、クエリの理解、タイプミスの許容、マーチャンダイジングルール、基本的なパーソナライゼーションをうまく処理します。主な必要性がより良い検索と製品レコメンデーションであれば、プラットフォームは正しい出発点です。
カスタム構築が理にかなうのは、プラットフォームが設計されていなかったことをAIにさせる必要がある場合です。複雑なビジネスルールに対して返品を処理する、複数のフルフィルメントシステムにまたがって保証請求を処理する、既存の購入品との製品互換性について助言する、または規制対象の製品カテゴリー(サプリメント、安全認証付き電子機器)をナビゲートする。これらには、検索プラットフォームが提供しない取引完全性とドメイン固有の検証が必要です。
当社が最もうまく機能していると見ているハイブリッドアプローチ:ディスカバリーと検索にはプラットフォームベンダーを使用し、その上にカスタムの検証レイヤーと取引レイヤーを構築します。これにより、検索の再発明(BloomreachとAlgoliaが何年もかけて最適化してきた)を避けつつ、プラットフォームが御社自身で対処すると想定している信頼性とコンプライアンスのインフラを追加します。
当社は評価フェーズで購入者がこの決定を下すのを支援します。アウトプットは、ベンダー選定基準、ビルド対バイの境界、統合設計を伴う具体的なアーキテクチャの推奨です。
ほとんどのEコマースAIシステムにとって、要件は禁止的というよりも透明性に焦点を当てたものです。製品レコメンデーションエンジンはEU AI法の下で「最小リスク」に分類され、これはより軽い要件を意味します。しかし、2026年8月2日までに実装する必要のある具体的な義務があります。
第一に、AIインタラクションの開示:顧客がチャットボットやAIショッピングアシスタントとやり取りする場合、人間ではなくAIと通信していることを明確に伝えなければなりません。これは、御社がどこを拠点としているかにかかわらず、EUの顧客がアクセスできるサイトに展開されたあらゆるシステムに適用されます。
第二に、AI生成コンテンツのラベリング:製品説明、レビュー要約、またはAIによって生成された顧客向けのテキストは、その旨をラベル付けされなければなりません。
第三に、御社のレコメンデーションシステムがアクセスの決定(どの顧客が金融商品、保険オファー、または年齢制限のある商品を目にするかを決定する)に使用される場合、それは「最小リスク」から「高リスク」へと移行し、完全な適合性評価、リスク管理システム、人間の監督要件を起動します。
制裁金は重大です。最大3,500万ユーロ、または全世界の年間売上高の7%のいずれか高い方です。当社はコンプライアンスのための技術インフラを構築します。適切なUXを備えた開示バナー、コンテンツラベリングのパイプライン、AIの意思決定経路を文書化する監査証跡システム、そして御社固有のAI導入が正確にどのティアに該当するかを判断するリスク分類評価です。
これは最も一般的な出発点です。Gartnerは、2026年までに組織はAI対応でないデータが原因でAIプロジェクトの60%を断念すると見積もっています。AkeneoやSalsifyのようなPIMシステムは、通常、売れ筋SKUについては強力な属性カバレッジを持ちますが、ロングテール製品については30~40%の完全性です。ロングテールこそ幻覚が起こる場所です。なぜなら、AIがもっともらしいが未検証の情報でギャップを埋めるからです。
当社のアプローチには3つのレイヤーがあります。第一に、カテゴリー別に属性の完全性をマッピングし、どのギャップが最も高い幻覚リスクを生むかを特定し(素材構成、電圧定格、アレルゲン情報といった安全上重要な属性が、マーケティングコピーよりも優先されます)、それらを埋める労力を定量化するカタログ監査を実行します。
第二に、ナレッジグラフに信頼度スコアリングを組み込みます。すべての製品属性に信頼度タグが付与されます。検証済み(製造元の仕様書、または人間によるレビューを伴うPIMから)、推論済み(レビューや説明からMLで抽出)、または不明です。AIは信頼度に基づいて応答を限定するよう指示されます。ジャケットが防水だと幻覚する代わりに、AIはこう述べます。「製品説明に基づくと、このジャケットは撥水性があるようですが、製造元は特定の防水等級を確認していません。」
第三に、製造元のフィードから構造化された属性を取得し、ビジョンモデルを使用して製品画像から仕様を抽出し、PIMデータとサプライヤーカタログの間の不整合をフラグ付けする自動エンリッチメントパイプラインを作成します。これですべてが一夜にして解決するわけではありませんが、データが改善される間、AIに正直な境界を与えます。
Klarnaは2022年から2024年にかけて、約700人のカスタマーサービスエージェントをAIに置き換えました。2024年2月までに、同社はAIが230万件の会話にわたって顧客チャットの75%を処理したと主張しました。その後、サービス品質が崩壊しました。CEOのSebastian Siemiatkowski氏は、この移行がサービスと製品の品質に悪影響を及ぼしたと公に認めました。2026年初頭までに、Klarnaは静かに人間のキャパシティを再構築し、ハイブリッドモデルへ移行していました。
この障害パターンは示唆に富んでいます。AIは量はうまく処理しましたが、複雑さは処理できませんでした。定型的なクエリ(残高の確認、支払い期日はいつか)は問題なく機能しました。エッジケース、感情的に高ぶった紛争、複数ステップの問題解決はシステムを圧倒しました。顧客は、実際の問題を解決できない、ありきたりで反復的な応答を報告しました。2025年のOrgvueの調査では、AI主導の人員削減を行った企業の55%が今その決定を後悔していることが判明しました。
教訓は、AIがカスタマーサービスを扱うべきではないということではありません。AIと人間の対応の境界線は、量の目標ではなく、インタラクションの複雑さに基づいて引かれなければならないということです。当社はその境界線を明示的に構築します。受信するクエリを複雑さ、感情の高ぶり、責任リスクで分類するルーティングレイヤーが、それぞれを適切なハンドラーに振り分けます。AIは本当に定型的な60~70%のクエリを処理します。人間はエスカレーション、紛争、そして金銭的責任を伴うあらゆることを処理します。AIは時間とともに人間の解決から学習しますが、境界線は人員削減の目標ではなく、測定された精度に基づいて徐々に移行します。
ほとんどのAIショッピングアシスタントは、主に標準アメリカ英語(SAE)のテキストで訓練されています。Cornell TechはこれをAmazon Rufusで実証しました。研究者が連結動詞を省略するようなアフリカ系アメリカ人英語の構文(「is this jacket machine washable?」の代わりに「this jacket machine washable?」)を使用すると、Rufusは低品質な応答を提供したり、無関係な製品へユーザーを誘導したりしました。別のドイツの研究では、10の主要な言語モデルが方言話者を「教育を受けていない、または怒っている」と表現することが判明しました。
当社は、御社の顧客層に合わせて調整された、体系的な方言・公平性のテストスイートを構築します。テストスイートは、構文のバリエーション(連結動詞の脱落、習慣のbe、AAEにおける二重否定、インド英語における異なる冠詞の使用)、語彙の違い(sneakers対trainers対tennis shoes)、多言語家庭でよく見られるコードスイッチングのパターンを網羅します。
各バリエーションについて、SAEのベースラインに対して応答の品質、関連性、完了率を測定します。「this jacket machine washable?」と尋ねる顧客が、「is this jacket machine washable?」と尋ねる顧客よりも悪い応答を得る場合、それは測定可能なバイアスのギャップです。
テストは、展開前のステージングと、本番での定期的な頻度で実行されます。また、価格帯や製品カテゴリーをまたいでテストします。なぜなら、バイアスはしばしばカタログの特定の領域に集中するからです。アウトプットは、具体的な是正ステップを伴う公平性スコアカードです。再訓練データの要件、クエリ正規化のルール、そして信頼度の低い方言解析のためのフォールバックパスです。
このソリューションページの背景にある研究で、信頼できるEコマースAIシステムのアーキテクチャを扱っています。
Amazon Rufusの障害を分解し、EコマースAIのための検証レイヤーを備えたマルチエージェント、ニューロシンボリックなアーキテクチャの論拠を構築します。
あなたのAIを信頼する買い物客は4倍の率でコンバージョンします。あなたのAIが作り話をしているのを見抜いた買い物客は、戻ってきません。
AIコマースの準備状況の独立した評価、既存の導入のための検証ミドルウェア、あるいは信頼できる会話型コマースのためのゼロからのアーキテクチャ、いずれが必要であっても、当社は一度の会話で契約のスコープを定めることができます。