Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang » AI-Nachrichten

Cloudflare senkt die Schwelle für das Crawling ganzer Websites mit einer einzigen API-Anfrage auf Null

2026-03-14 29

Das dystopischste Drehbuch der Tech-Industrie spielt sich ab. Ein milliardenschwerer Sicherheitsgigant, der seine Anfänge in der Abwehr von automatisierten Bots hatte, hat es sich zur Aufgabe gemacht, das einfachste und vielleicht sogar leistungsfähigste automatisierte Crawler-Tool der Welt zu entwickeln.

Im März 2026 ging Cloudflare mit einer neuen Beta-Funktion für Browser-Rendering live:/crawl API.

Sie müssen kein komplexes Framework konfigurieren, sich nicht mit CAPTCHA herumschlagen und keine Puppeteer- oder Playwright-Browser-Cluster auf einem Server mit Speicherlecks verwalten. Alles, was Sie tun müssen, ist, eine HTTP-POST-Anfrage mit einer Start-URL zu senden, und der Rest der Seitenerkennung, des JavaScript-Renderings und des Pagings wird vom globalen Edge-Netzwerk des Unternehmens erledigt. Am Ende des Tages wird es Ihnen sauberes HTML, Markdown oder strukturiertes JSON ausspucken.

图:官方推文截图

Ironischerweise haben unzählige Entwickler in den letzten Jahren für die Dienste von Cloudflare bezahlt, um sich gegen Crawler zu schützen. Jetzt sehen sich dieselben Leute die Dokumentation an und lernen, wie sie die API von Cloudflare nutzen können, um die Websites anderer Leute zu crawlen.

Verborgene Ambitionen: Ein Rendering-Imperium mit 9 Endpunkten

Während alle Augen auf die /crawl Wenn es um den Schock geht, übersehen viele Menschen die dahinter stehende Infrastruktur./crawl Es ist kein isoliertes Hack-Spielzeug, sondern das letzte Puzzleteil in der gesamten REST-API-Matrix von Cloudflare Browser Rendering.

Schauen Sie sich die vollständige Liste der aktuellen Endpunkte genau an, und Sie werden feststellen, dass die Möglichkeiten des Browsers tatsächlich vollständig abgebaut wurden:

Anfangs- oder Endpunkt (in Geschichten usw.) Funktionelle Beschreibung
/content Erhalten Sie eine vollständig gerenderte einzelne HTML-Seite
/screenshot Visuelles Bildschirmfoto der Webseite
/pdf Seite zu PDF
/markdown Markdown-Extraktion für AI
/snapshot Enthält einen hybriden Schnappschuss aus Inhalt und Bildmaterial
/scrape Strukturiertes Crawling auf der Grundlage von DOM-Knoten
/json Direkte Ausgabe der extrahierten strukturierten Daten in Kombination mit Workers AI
/links Topo Crawl Essential Ganzseiten-Link-Extraktion
/crawl Automatisierter Whole Site Crawl (neu hinzugekommen)

图:ashleypeacock 整理的 API 端点总结推文

In der Vergangenheit mussten Sie entweder das alte Scrapy verwenden, um statische Seiten zu erstellen, oder einen umfangreichen Satz von Node.js-Diensten aufbauen, um echte Browser auszuführen. Jetzt verwandelt Cloudflare diesen Prozess in zwei minimalistische Schritte:

  1. eine Aufgabe einleitenSenden Sie die Start-URL an /crawlDie Job-ID einer asynchronen Ausführung ist sofort verfügbar.
  2. Abfrage vonNehmen Sie die Job-ID und überprüfen Sie den Fortschritt. Die Aufträge können bis zu 7 Tage lang in ihrem Datenzentrum laufen und die Ergebnisse werden 14 Tage lang aufbewahrt.

Die in das System eingebauten Parameter bieten ein extrem hohes Maß an Kontrolle. Sie können die limit Um ein maximales Crawl-Limit von 100.000 Seiten festzulegen, verwenden Sie die depth Begrenzen Sie die Linktiefe, oder verwenden Sie die includePatterns usw. werden nur Inhalte unter einem bestimmten Pfad erfasst. Noch tödlicher ist die render Parameter. Wenn Sie nur rein statische Dokumentstationen crawlen müssen, setzen Sie die render einrichten als falsewird das Browser-Rendering übersprungen und die gleichzeitige Erfassung mit hoher Geschwindigkeit durchgeführt; wenn es sich um eine einseitige Anwendung (SPA) handelt, schalten Sie die render Sie können den Inhalt nach der Ausführung von JavaScript extrahieren.

Nullschwellige Fallstricke

Dieser infrastrukturelle Tiefschlag übt sofort eine Anziehungskraft auf das bestehende Unternehmens-Ökosystem aus.

Die Entwickler von RAG-Anwendungen (Retrieval Augmented Generation) sind die ersten Nutznießer. Große Modelle brauchen sauberen Text, HTML-Tags sind für sie ein Fremdwort. Wo Entwickler früher alle möglichen regulären Extraktoren und Bereinigungsskripte schreiben mussten, erhalten sie jetzt mit einer einzigen Anfrage direkt Markdown zurück. ai data engineers, Indie-Entwickler und sogar kleine Startup-Teams müssen nicht mehr eine spezielle Person einstellen, um eine Crawler-Pipeline zu pflegen.

Aber für die Unternehmen, die sich auf Crawler-SaaS spezialisiert haben, ist das so, als würde man die Hitze aus dem Feuer nehmen. Nehmen wir zum Beispiel Firecrawl, dessen Kerngeschäftsmodell darin besteht, Crawler in brauchbare APIs zu kapseln, und das wir jetzt mit Cloudflare auf den Tisch legen:

Dimension (math.) Cloudflare /crawl Firecrawl
ursprüngliche Ausrichtung APIs auf Infrastrukturebene SaaS für vertikale Szenarien
Abrechnungsmodell Browserbasierte Abrechnung Abrechnung nach Anzahl der gecrawlten Seiten
Knotenpunktnetz Großer globaler Pool von Edge-Knoten Relativ eingeschränkte Serverexporte
Benutzerfreundlichkeit Erfordert ein Cloudflare-Konto bei Workers. Kinderleichte Registrierung und Nutzung
Strukturierte Extraktion Native Integration Arbeitnehmer AI /json Anfangs- oder Endpunkt (in Geschichten usw.) Integrierte Extraktion großer Modelle für eine bessere Out-of-the-Box-Erfahrung

Firecrawl ist immer noch führend bei der Produktverpackung und der Benutzerfreundlichkeit für Nutzer ohne technischen Hintergrund. Aber Cloudflare hat einen unüberwindbaren Graben: Rechenkosten und Knotengröße.

Solange Sie während des Beta-Tests das JavaScript-Rendering nicht einschalten (render: false), ist die Schnittstelle völlig kostenlos. Selbst mit aktiviertem Rendering bietet die kostenlose Version 10 Minuten Browserzeit pro Tag; die kostenpflichtige Version (ab 5 $ pro Monat) bietet 10 Stunden pro Monat und berechnet Ihnen für jede weitere Stunde nur 0,09 $ pro Stunde. Die stündliche Abrechnung kehrt die traditionelle Logik der Abrechnung pro Anfrage vollständig um, und bei hohem Crawling-Bedarf sind die Kosten fast vernachlässigbar.

图:vikingmute 分享的价格截图

sowohl Schild als auch Speer

Zurück zur ursprünglichen Ironie. Die Aufregung im sozialen Netzwerk kam nicht von ungefähr. x Ein Tweet des Nutzers @AL_Nick_ traf die Logik des Unternehmens, Dinge zu tun, punktgenau:

be cloudflare

spend years selling protection from scrapers

launch /crawl

become the scraper you were protecting people from

Das dazugehörige Bild ist der klassische Satz von Batman: “Entweder du gehst als Held in den Ruhestand oder du erlebst, wie du ein Schurke wirst.”

图:AL_Nick_ 转发的爬虫讽刺推文

Angesichts all der Kritik im Netz haben sich die Verantwortlichen von Cloudflare in den Kommentaren sehr geschickt verteidigt: Sie glauben, dass die Ursache für die gewalttätigen Crawler, die das Internet heute überschwemmen, darin liegt, dass “die Entwicklungskosten für einen höflichen Crawler zu hoch sind”. Daher bieten sie eine offizielle API an, die sich standardmäßig an robots.txt hält, die Häufigkeit der Gleichzeitigkeit kontrolliert, um den Zielserver nicht zu überfordern, und einen kanonischen User-Agent verwendet.

Das ist ein logisches Argument, aber es täuscht nicht über die geschäftliche Raffinesse hinweg. Die Realität liegt auf dem Tisch: Unternehmen, die für die fortschrittlichen WAFs von Cloudflare bezahlen, verfügen über Schutzmechanismen, die Cloudflare selbst daran hindern können, Daten zu versenden. /crawl Anfrage?

Ein Entwickler aus der chinesischen Community, @chuhaiqu, hat den Nagel auf den Kopf getroffen, als er sagte: “Früher verlangte man Geld dafür, dass man Crawler blockierte. Jetzt: man wird dafür bezahlt, dass man anderen beim Crawlen hilft”.”

图:chuhaiqu 推文截图

Dies ist eigentlich das ultimative Privileg eines plattformbasierten Unternehmens. Durch die Kommerzialisierung der Crawling-Fähigkeiten stärkt Cloudflare die Abhängigkeit der Entwickler von seinem Workers-Computing-Ökosystem. Es ist ihnen egal, ob Sie andere crawlen oder andere daran hindern, Sie zu crawlen. Solange die Daten fließen und der Datenverkehr durch ihre Edge-Knoten läuft, ist der Zähler auf dem neuesten Stand.

Praktische Anwendung: Bereitstellung Ihrer Datenpumpe in fünf Minuten

Abgesehen von der Geschäftsethik ist dieses Tool aus der Sicht eines Entwicklers wirklich zu schön, um wahr zu sein. Alles, was Sie brauchen, ist ein Cloudflare-Konto mit aktivierten Workers und ein API-Token mit Browser-Rendering-Rechten.

Mit weniger als 30 Codezeilen können Sie eine vollständige Daten-Crawling-Aufgabe auf Website-Ebene durchführen:

async function crawlSite(url, apiToken, accountId) {
// 1. 发起 POST 请求,创建爬取任务
const startRes = await fetch(
`https://api.cloudflare.com/client/v4/accounts/${accountId}/browser-rendering/crawl`,
{
method: 'POST',
headers: {
'Authorization': `Bearer ${apiToken}`,
'Content-Type': 'application/json'
},
// 请求输出 Markdown,对于静态内容关闭渲染以加速
body: JSON.stringify({ url, formats:['markdown'], render: false })
}
);
const { result: jobId } = await startRes.json();
// 2. 轮询 GET 请求,等待庞大的任务集群完成作业
while (true) {
const checkRes = await fetch(
`https://api.cloudflare.com/client/v4/accounts/${accountId}/browser-rendering/crawl/${jobId}?limit=1`,
{ headers: { 'Authorization': `Bearer ${apiToken}` } }
);
const data = await checkRes.json();
if (data.result.status !== 'running') break;
// 礼貌的等待时间
await new Promise(r => setTimeout(r, 3000));
}
// 3. 任务结束,提取洗净后的数据
const finalRes = await fetch(
`https://api.cloudflare.com/client/v4/accounts/${accountId}/browser-rendering/crawl/${jobId}`,
{ headers: { 'Authorization': `Bearer ${apiToken}` } }
);
return (await finalRes.json()).result.records;
}

Sie begleiteten sogar die Veröffentlichung der begleitenden MCP Server, d.h. Sie können den Cursor oder Claude KI-IDEs wie diese rufen das System direkt über natürliche Sprache auf. Welche Daten Sie benötigen, die KI ruft automatisch diese minimalistische API auf, um sie zurückzuholen.

Die alten Schranken bröckeln, und die Grenzkosten des Datenzugangs nähern sich unaufhaltsam dem Nullpunkt. Das sind absolut schlechte Nachrichten für die Verfechter offener Inhalte im Internet.

🍐 Ente & Birne AI Artikel Smart Writer
Auswahl → Schreiben → Veröffentlichen
Vollautomatisch!
WordPress AI-Schreib-Plugin
Mehr als 500 Inhaltsersteller nutzen
🎯Intelligente AuswahlBatch-Generation: Abschied von der Erschöpfung
🧠Abrufverbesserung: Vernetzung + Wissensbasis mit Tiefgang
VollautomatischSchreiben → Grafik → Veröffentlichung
💎Dauerhaft kostenlosKostenlose Version = Bezahlte Version, unbegrenzt
🔥 Laden Sie das Plugin jetzt kostenlos herunter!
✅ Für immer frei · 🔓 100% Offene Quelle · 🔒 Lokale Speicherung von Daten

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie Schlüsselwörter ein.Zugänglichkeit zur Bing-SucheAI-Tools, finden Sie schnell die AI-Tools auf dieser Website.

Neue Veröffentlichungen

zurück zum Anfang