O processo de geração de dados é o seguinteMecanismo de controle de qualidade em três etapas::
- Amostragem de consulta de diversidade: modificando o
query_sampling_config.jsonDefina parâmetros como heterogeneidade de domínio (recomenda-se 0,7 ou mais), complexidade de palavras-chave (recomenda-se 3 a 5 níveis) etc. para garantir a cobertura do problema - Síntese de pesquisa em tempo real: Executar
data_synthesis.pyChame a API do Google para obter conteúdo da Web e gerar automaticamente dados brutos contendo caminhos de inferência de resultados de páginas com perguntas e palavras-chave - Otimização de triagem multidimensional: Uso
response_curation.pyFiltrar por três critérios:- Dificuldade do problema (os problemas do tipo SQL precisam ser ≥ nível 4)
- Comprimento do caminho de inferência (recomenda-se manter amostras com ≥ 3 etapas)
- Recuperação de pesquisa (precisa exceder 70%)
A prática recomendada sugere que, ao ajustartemperature=0.8responder cantandotop_p=0.9Os dados de treinamento gerados pelo parâmetro permitem o ajuste fino do modelo.231 TP3T. Os dados de qualidade gerados são armazenados por padrão nocache/curated_dataCatálogo.
Essa resposta foi extraída do artigoSimpleDeepSearcher: uma ferramenta de recuperação inteligente para aprimorar grandes modelos de linguagem por meio da pesquisa na WebO































