Der Aufstieg der künstlichen Intelligenz entfacht einen stillen Krieg im Internet. Auf der einen Seite stehen KI-Unternehmen, die ihre Modelle mit riesigen Datenmengen trainieren wollen, und auf der anderen Seite besorgte Inhaltsersteller und Verleger. Sie stellen fest, dass ihre Arbeit unentgeltlich für das KI-Training verwendet wird und dass sie entweder die Tür offen lassen oder Mauern (Walled Gardens) errichten müssen, um die Inhalte gänzlich zu blockieren. Doch nun schlägt der Cyberinfrastruktur-Riese Cloudflare einen dritten Weg vor und versucht, den Konflikt mit einem fast vergessenen Internetprotokoll zu entschärfen.
Abkehr von der binären Wahl: Pay-per-Crawl
Die Eigentümer von Inhalten befinden sich derzeit in einem echten Dilemma. Viele Medienunternehmen, wie z. B. die New York Times, haben sich dafür entschieden, rechtliche Schritte gegen OpenAI und Microsoft einzuleiten und sie der Urheberrechtsverletzung zu beschuldigen. Andere, wie Axel Springer und Associated Press, haben sich dafür entschieden, Lizenzvereinbarungen mit KI-Unternehmen einzugehen und Inhalte gegen finanzielle und technische Zusammenarbeit einzutauschen. Die Hürde für die Aushandlung dieser einmaligen Verträge ist jedoch extrem hoch, so dass sie für kleine und mittelgroße Inhalteanbieter fast unmöglich zu realisieren sind.
Der Vorschlag von Cloudflare mit der Bezeichnung "Pay per Crawl" zielt darauf ab, den Eigentümern von Inhalten eine dritte Option neben "völlig offen" und "völlig geschlossen" anzubieten. und "vollständig geschlossen":Gebühr für BesucheDie Lösung besteht nicht darin, eine völlig neue Technologie zu schaffen. Statt eine völlig neue Technologie zu schaffen, wird mit dieser Lösung ein längst vergessener HTTP-Statuscode wiederbelebt, der lange Zeit im Versuchsstadium war: 402 Payment Required
(Bezahlung erforderlich).
Dieser Statuscode wurde ursprünglich für digitale Bargeld- oder Micropayment-Systeme entwickelt, aber nie auf breiter Basis angenommen. Cloudflare bringt ihn heute zurück mit dem Ziel, einen programmatischen Rahmen für die Monetarisierung von Inhalten im Web zu schaffen.
Wie funktioniert die "402-Zahlungspflicht"?
Mit "Pay per Crawl", das sich derzeit in der privaten Beta-Phase befindet, können Website-Besitzer einen Pauschalpreis pro Anfrage für ihre Inhalte festlegen. Wenn ein KI-Crawler die Website besucht, hat der Herausgeber drei Optionen:
- Erlauben (Erlauben):: Freie und offene Inhalte.
- Laden Sie:: Von der anderen Partei die Zahlung eines bestimmten Preises verlangen.
- Block:: Vollständige Verweigerung des Zugangs.
Interessanterweise kann ein Crawler, auch wenn er keine Zahlungsbeziehung zu Cloudflare unterhält, dem Herausgeber trotzdem "Gebühren" berechnen. Dies ist funktionell gleichbedeutend mit einem Abfangen auf Netzwerkebene (Rückgabe 403 Forbidden
), aber es ist eine zusätzliche Botschaft, dass es in Zukunft eine bezahlte Partnerschaft zwischen uns geben könnte.
Ein Eckpfeiler des Vertrauens: Überprüfung der Identität eines Crawlers
Die größte Herausforderung bei diesem System besteht darin, sicherzustellen, dass der bezahlte Crawler das ist, was er vorgibt zu sein, und nicht ein Fälscher. Web Bot Auth
Programm zur Lösung dieses Problems.Web Bot Auth
Verwenden Sie kryptografische Signaturen in HTTP-Nachrichten, um zu überprüfen, ob die Anfrage tatsächlich von einem automatisierten Bot stammt.
Für den Crawler-Operator sieht der gesamte Prozess folgendermaßen aus:
- Erzeugen von SchlüsselnErzeugen eines Ed25519-Schlüsselpaares.
- Veröffentlichen von öffentlichen SchlüsselnVeröffentlichung öffentlicher Schlüssel im JWK-Format in einem selbst gehosteten Verzeichnis.
- EinschreibungBereitstellung der URL des öffentlichen Schlüsselverzeichnisses und der User-Agent-Informationen an Cloudflare.
- Antrag auf UnterschriftNachrichten-Signaturen in jeder HTTP-Anfrage verwenden.
Wenn der Crawler eine Anfrage stellt, enthält der Anfragekopf die signature-agent
undsignature-input
im Gesang antworten signature
usw. für die Authentifizierung.
// 一个带有数字签名的请求示例,用于验证爬虫身份
GET /example.html
Signature-Agent: "https://signature-agent.example.com"
Signature-Input: sig2=("@authority" "signature-agent")
;created=1735689600
;keyid="poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U"
;alg="ed25519"
;expires=1735693200
;nonce="e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg=="
;tag="web-bot-auth"
Signature: sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:
Zwei Zahlungsmodelle: aktiv und passiv
In der Praxis gibt es zwei Arten von bezahlten Interaktionen:
- ReaktivCrawler: Der Crawler sendet zunächst eine Anfrage, und wenn der Zielinhalt kostenpflichtig ist, gibt der Server die
HTTP 402 Payment Required
Antwort mit dem Antwortkopfcrawler-price
Feld informiert über den Preis. Sobald der Crawler ihn erhält, kann er entscheiden, ob er diecrawler-exact-price
Kopfzeile Wiederholungsaufforderung, um die Zustimmung zur Zahlung anzuzeigen. - Proaktiver Absichtsmodus: Der Crawler kann aktiv eine
crawler-max-price
Request Header, der den Höchstpreis angibt, den er zu zahlen bereit ist. Liegt der Preis des Inhalts unter diesem Höchstwert oder ist er gleich, gibt der Server einfach denHTTP 200 OK
und Inhalt in der Kopfzeile der Antwort über dencrawler-charged
Bestätigt den tatsächlichen Betrag des Abzugs. Wenn der Preis des Inhalts höher ist als sein Gebot, geben Sie den402
Antwort.
Cloudflare spielt die Rolle des Händlers, der die Transaktionen sammelt, die Crawler abrechnet und schließlich die Einnahmen an die Content-Publisher verteilt.
Ein Blick in die Zukunft: von Crawlern zu KI-Agenten
Bei "Pay per Crawl" geht es möglicherweise um viel mehr als nur um die Lösung des aktuellen Crawler-Datenproblems; Cloudflare blickt wirklich auf eine Zukunft, die von KI-Agenten dominiert wird.
Stellen Sie sich vor, Sie geben diesem Agenten ein Budget, wenn Ihr persönlicher KI-Assistent für Sie einen Bericht über die neueste Krebsforschung schreiben oder das beste Restaurant in Ihrer Nähe finden soll. Er könnte so programmiert werden, dass er HTTP 402
Vereinbarungen über das automatische Aushandeln, Bezahlen und Abrufen der qualitativ besten und relevantesten Inhalte mit anderen Informationsquellen.
Dies markiert einen technologischen Wandel hin zu einem robusten, automatisierten Mechanismus, der den Urhebern eine echte Kontrolle über den Wert ihrer digitalen Inhalte gibt. Auch wenn sich dieses System noch in einem sehr frühen Stadium befindet und Fragen wie die dynamische Preisgestaltung und detailliertere Lizenzierungsmodelle noch erforscht werden müssen, öffnet es eine neue Tür zum Aufbau eines gerechteren und vielfältigeren Ökosystems für Internetinhalte.