A ascensão da inteligência artificial está provocando uma guerra silenciosa na Internet. De um lado estão as empresas de IA ansiosas para treinar seus modelos com grandes quantidades de dados e, do outro lado, estão os criadores e editores de conteúdo preocupados. Eles descobrem que seu trabalho está sendo usado gratuitamente para treinamento de IA e que precisam deixar a porta aberta ou construir muros altos (jardim murado) para bloquear completamente o conteúdo. Mas agora, a gigante da infraestrutura cibernética Cloudflare está propondo uma terceira via, tentando neutralizar o conflito com um protocolo de Internet quase esquecido.
Quebrando a escolha binária: pagamento por rastreamento
O dilema atual enfrentado pelos proprietários de conteúdo é real. Muitas empresas de mídia, como o The New York Times, optaram por tomar medidas legais contra a OpenAI e a Microsoft, acusando-as de violação de direitos autorais. Outras, como a Axel Springer e a Associated Press, optaram por firmar acordos de licenciamento com empresas de IA, trocando conteúdo por cooperação financeira e técnica. Mas a barreira para negociar esses acordos pontuais é extremamente alta, tornando-os quase impossíveis de serem realizados por criadores de conteúdo de pequeno e médio porte.
A proposta da Cloudflare, chamada de "Pay per Crawl" (Pagamento por rastreamento), está centrada em oferecer aos proprietários de conteúdo uma terceira opção além de "completamente aberta" e "completamente fechada". e "completamente fechado":cobrança de visitasA solução não é criar uma tecnologia totalmente nova. Em vez de criar uma tecnologia totalmente nova, essa solução "ressuscita" de forma inteligente um código de status HTTP há muito esquecido, que estava em um estágio experimental há muito tempo: 402 Payment Required
(Pagamento obrigatório).
Esse código de status foi originalmente projetado para dinheiro digital ou sistemas de micropagamento, mas nunca foi amplamente adotado. A Cloudflare o está trazendo de volta hoje com o objetivo de criar uma estrutura programática para monetizar conteúdo em escala da Web.
Como funciona o "requisito de pagamento 402"?
O "Pay per Crawl", atualmente em versão beta privada, permite que os proprietários de sites definam um preço fixo por solicitação para seu conteúdo. Quando um rastreador de IA visita o site, o editor tem três opções:
- Permitir (Allow):: Conteúdo gratuito e aberto.
- CargaPagamento: Exigir o pagamento da outra parte a um preço definido.
- Bloqueio:: Negação total de acesso.
É interessante notar que, mesmo que um rastreador não tenha uma relação de pagamento com a Cloudflare, o editor ainda pode optar por "cobrar". Isso é funcionalmente equivalente a uma interceptação em nível de rede (retorno 403 Forbidden
), mas envia uma mensagem adicional de que pode haver uma parceria paga entre nós no futuro.
Uma pedra angular da confiança: verificação da identidade de um rastreador
O principal desafio desse sistema é garantir que o rastreador pago seja o que afirma ser, e não um falsificador. Web Bot Auth
programa para resolver esse problema.Web Bot Auth
Use assinaturas criptográficas em mensagens HTTP para verificar se a solicitação é de fato proveniente de um bot automatizado.
Para o operador do rastreador, todo o processo é o seguinte:
- Geração de chavesCrie um par de chaves Ed25519.
- Publicação de chaves públicasPublicar chaves públicas no formato JWK em um diretório auto-hospedado.
- registroURL: forneça à Cloudflare o URL do diretório de chaves públicas e as informações do agente do usuário.
- Solicitação de assinaturaAssinatura de mensagens: use assinaturas de mensagens em todas as solicitações HTTP feitas.
Quando um rastreador faz uma solicitação, o cabeçalho da solicitação conterá o signature-agent
esignature-input
responder cantando signature
etc. para autenticação.
// 一个带有数字签名的请求示例,用于验证爬虫身份
GET /example.html
Signature-Agent: "https://signature-agent.example.com"
Signature-Input: sig2=("@authority" "signature-agent")
;created=1735689600
;keyid="poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U"
;alg="ed25519"
;expires=1735693200
;nonce="e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg=="
;tag="web-bot-auth"
Signature: sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:
Dois modelos de pagamento: ativo e passivo
Na prática, as interações pagas são divididas em dois modelos:
- ReativoO rastreador envia uma solicitação primeiro e, se o conteúdo de destino precisar ser pago, o servidor retorna o
HTTP 402 Payment Required
resposta com o cabeçalho de respostacrawler-price
informa o preço. Depois que o rastreador o recebe, ele pode decidir se deseja transportarcrawler-exact-price
Solicitação de nova tentativa de cabeçalho para indicar concordância com o pagamento. - Modo de intenção proativaO rastreador pode incluir ativamente um
crawler-max-price
indicando o preço máximo que está disposto a pagar. Se o preço do conteúdo for menor ou igual a esse máximo, o servidor simplesmente retornará o valorHTTP 200 OK
e o conteúdo no cabeçalho de resposta por meio docrawler-charged
Confirma o valor real da dedução. Se o preço do conteúdo for maior do que seu lance, retorne o402
Resposta.
A Cloudflare desempenha o papel de comerciante de registro, sendo responsável por agregar transações, cobrar rastreadores e, por fim, distribuir os lucros aos editores de conteúdo.
Uma visão do futuro: de rastreadores a agentes de IA
O "Pay per Crawl" pode ser muito mais do que resolver o problema de dados de rastreamento do dia; a Cloudflare está realmente olhando para um futuro dominado por agentes de IA.
Imagine dar um orçamento a esse agente quando seu assistente pessoal de IA precisar escrever uma resenha sobre a pesquisa mais recente sobre câncer para você ou encontrar o melhor restaurante local. Ele poderia ser programado para HTTP 402
Os acordos negociam, pagam e acessam automaticamente o conteúdo de melhor qualidade e mais relevante com outras fontes de informação.
Isso marca uma mudança tecnológica em direção a um mecanismo robusto e automatizado que dá aos criadores controle real sobre o valor de seus ativos digitais. Embora esse sistema ainda esteja em seus estágios iniciais, com questões como preços dinâmicos e modelos de licenciamento mais granulares ainda a serem explorados, ele abre uma nova porta para a criação de um ecossistema de conteúdo da Internet mais justo e diversificado.