人工知能の台頭は、インターネット上で静かな戦争を巻き起こしている。一方では、膨大なデータを使ってモデルを訓練しようと躍起になっているAI企業があり、他方では、コンテンツ制作者や出版社が頭を悩ませている。彼らは自分たちの作品がAIのトレーニングに無償で利用されていることに気づき、ドアを開けっ放しにするか、高い壁(ウォール・ガーデン)を作ってコンテンツを完全にブロックするしかない。しかし今、サイバーインフラの巨人クラウドフレアが第三の方法を提案し、ほとんど忘れ去られたインターネットプロトコルで対立を解消しようとしている。
ペイ・パー・クロールという二者択一を打ち破る
現在、コンテンツ所有者が直面しているジレンマは現実のものとなっている。ニューヨーク・タイムズ』紙のような多くのメディア企業は、OpenAIやマイクロソフトに対して著作権侵害を訴え、法的措置をとることを選択した。また、アクセル・スプリンガーやAP通信のように、AI企業とライセンス契約を結び、コンテンツを金銭的・技術的な協力と交換することを選択した企業もある。しかし、このような一回限りの契約を交渉するハードルは非常に高く、中小のコンテンツ制作者が実現するのはほぼ不可能だ。
Cloudflareの提案は "Pay per Crawl "と呼ばれ、"完全にオープン "と "完全にクローズド "に加えて、コンテンツ所有者に第3の選択肢を与えることを中心としている。と「完全にクローズド」である:訪問料この解決策は、まったく新しい技術を生み出すことではない。この解決策は、まったく新しい技術を生み出すのではなく、長い間実験段階にあったHTTPステータスコードを巧みに「復活」させる: 402 Payment Required
(要支払い)。
Cloudflareは、ウェブスケールでコンテンツを収益化するためのプログラムフレームワークを作成することを目的として、このステータスコードを今日復活させました。
402ドルの支払い要件」とはどのようなものですか?
「ペイ・パー・クロール」は現在プライベート・ベータ版で、ウェブサイト所有者は、コンテンツに対してリクエストごとに一律の価格を設定することができる。AIクローラーがサイトを訪問すると、パブリッシャーには3つのオプションがある:
- 許可する(Allow):: 無料でオープンなコンテンツ。
- チャージ(1)相手に対し、決められた価格で支払いを要求する。
- ブロック:: 完全なアクセス拒否。
興味深いことに、クローラーがCloudflareと支払い関係を持っていなくても、パブリッシャは「課金」を選択することができます。これは機能的にはネットワークレベルの傍受と同等です(リターン 403 Forbidden
)だが、将来的には私たちの間で有償のパートナーシップが結ばれる可能性があるという追加的なメッセージを送っている。
信頼の礎:クローラーの身元確認
このシステムの重要な課題は、有料のクローラーがその主張通りのものであり、偽造者でないことを確認することです。 Web Bot Auth
この問題に取り組むためのプログラムである。Web Bot Auth
HTTPメッセージの暗号化署名を使用して、リクエストが本当に自動ボットからのものであることを検証する。
クローラーオペレーターにとって、全体のプロセスは以下の通りである:
- 鍵の生成Ed25519キー・ペアを作成する。
- 公開鍵の発行JWK形式の公開鍵をセルフホストディレクトリで公開。
- 在籍公開鍵ディレクトリのURLとユーザーエージェント情報をCloudflareに提供します。
- 署名依頼すべてのHTTPリクエストにメッセージシグネチャを使用する。
クローラーがリクエストを行うと、リクエストヘッダには signature-agent
そしてsignature-input
歌で応える signature
などのフィールドを認証に使用する。
// 一个带有数字签名的请求示例,用于验证爬虫身份
GET /example.html
Signature-Agent: "https://signature-agent.example.com"
Signature-Input: sig2=("@authority" "signature-agent")
;created=1735689600
;keyid="poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U"
;alg="ed25519"
;expires=1735693200
;nonce="e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg=="
;tag="web-bot-auth"
Signature: sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:
2つの支払いモデル:アクティブとパッシブ
実際には、有料交流は2つのモデルに分けられる:
- 反応性クローラーはまずリクエストを送信し、対象となるコンテンツに対価が必要であれば、サーバーはその対価を返します。
HTTP 402 Payment Required
レスポンスをレスポンスヘッダcrawler-price
フィールドが価格を通知する。クローラーはこれを受信すると、次のことを行うかどうかを決定することができる。crawler-exact-price
支払いに同意したことを示すヘッダーの再試行要求。 - プロアクティブ・インテント・モードクローラーは積極的に
crawler-max-price
リクエストヘッダで、支払う意思のある最大価格を示す。もしコンテンツの価格がその最大価格以下であれば、サーバは単にHTTP 200 OK
を経由して、レスポンスヘッダのcrawler-charged
実際の控除額を確認する。コンテンツの価格が入札価格より高い場合は、その価格を返す。402
反応だ。
Cloudflareは、トランザクションを集約し、クローラーに課金し、最終的にコンテンツパブリッシャーに収益を分配する、レコードのマーチャントの役割を果たします。
未来への展望:クローラーからAIエージェントへ
「クラウドフレアは、AIエージェントが支配する未来を見据えているのだ。
あなたの個人的なAIアシスタントが、あなたのために最新のがん研究のレビューを書いたり、地元の最高のレストランを探したりする必要があるときに、このエージェントに予算を与えることを想像してみてほしい。このエージェントは、次のようにプログラムすることができるだろう。 HTTP 402
他の情報ソースとの間で、最も質が高く、最も関連性の高いコンテンツについて自動的に交渉し、対価を支払い、アクセスする契約。
これは、クリエイターがデジタル資産の価値を実質的にコントロールできる、強固で自動化された仕組みへの技術的な転換を意味する。このシステムはまだ初期段階にあり、ダイナミックな価格設定やよりきめ細かなライセンス・モデルといった問題はまだ検討されていないものの、より公平で多様なインターネット・コンテンツのエコシステムを構築するための新たな扉を開くものである。