O arXiv Summarizer é uma ferramenta de script Python de código aberto, hospedada no GitHub, projetada para ajudar os usuários a acessar e gerar rapidamente resumos de artigos acadêmicos da plataforma arXiv. Ele usa o software gratuito API Gemini Resumo de texto eficiente para que pesquisadores, estudantes e entusiastas acadêmicos compreendam rapidamente o conteúdo principal de um artigo sem precisar ler documentos extensos um a um. A ferramenta é compatível com resumos de artigos individuais, resumos de artigos em lote e extração automática de artigos com base em palavras-chave e geração de resumos, sendo simples de operar e fácil de instalar. Por meio do processamento de artigos automatizado e orientado por palavras-chave, ela melhora muito a eficiência da triagem da literatura acadêmica, especialmente para usuários que precisam acompanhar os últimos desenvolvimentos de pesquisa.
Lista de funções
- Resumo de um único artigo: insira o URL da página de resumo de um artigo do arXiv para gerar um resumo conciso.
- Resumos em lote: gere resumos em lote inserindo vários URLs de artigos do arXiv em um arquivo de texto.
- Extração de resumos de palavras-chave: de acordo com as palavras-chave e o intervalo de datas especificados pelo usuário, obtém automaticamente artigos relevantes do arXiv e gera resumos.
- Atualização diária automatizada: suporta a configuração de acesso diário automático e resumo dos artigos mais recentes, adequados para o acompanhamento contínuo do progresso da pesquisa.
- Gêmeos Integração de API: aproveite a API gratuita do Gemini para gerar resumos de texto de alta qualidade.
- Configuração simples: processo de instalação fácil por meio do Conda e do pip para iniciantes.
Usando a Ajuda
Processo de instalação
Para usar o arXiv Summarizer, os usuários precisam primeiro concluir a configuração do ambiente e a instalação do script. Veja a seguir as etapas detalhadas:
- armazém de clones
Clone o projeto localmente executando o seguinte comando em um terminal ou linha de comando:git clone https://github.com/Shaier/arxiv_summarizer.git cd arxiv_summarizer
- Criação de um ambiente Conda
Certifique-se de que o Conda esteja instalado (recomenda-se o Miniconda ou o Anaconda). Crie e ative um ambiente Python 3.11:conda create -n arxiv_summarizer python=3.11 conda activate arxiv_summarizer
- Instalação de dependências
No ambiente ativado, instale os pacotes Python necessários para o projeto:pip install -r requirements.txt
- Configuração das chaves de API do Gemini
- Visite a página da API Gemini do Google (é necessário ter uma conta do Google) para obter uma chave de API gratuita.
- Abra o arquivo
url_summarize.py
encontre a linha 5 do arquivoYOUR_GEMINI_API_KEY
. - comandante-em-chefe (militar)
YOUR_GEMINI_API_KEY
Substitua-o pela chave real da API do Gemini e salve o arquivo.
- Verificar a instalação
Depois de garantir que todas as dependências estejam instaladas corretamente, você pode executar o seguinte comando para testar o script:python url_summarize.py
Se nenhum erro for relatado, o ambiente foi configurado com êxito.
Função Fluxo de operação
O arXiv Summarizer oferece três funções principais, e aqui estão as etapas detalhadas:
1. resumos de trabalhos individuais
- mover::
- Certifique-se de que a chave da API do Gemini esteja configurada.
- Abra um terminal e vá para o diretório do projeto.
- Executar comando:
python url_summarize.py
- Quando solicitado, digite o URL da página de resumo do artigo do arXiv (por exemplo:
https://arxiv.org/abs/2009.01325
). Observação: Não use links em PDF. - O script chama a API do Gemini para processar o conteúdo do documento e exibe um resumo no terminal.
- advertência::
- Certifique-se de que o URL seja uma página de resumo do arXiv, e não um link para um arquivo PDF.
- O conteúdo do resumo varia de acordo com a complexidade do artigo e, em geral, consiste em algumas frases que destacam as principais contribuições e conclusões.
2. resumos de lotes
- mover::
- Crie um arquivo de texto no diretório do projeto (por exemplo
urls.txt
). - No arquivo de texto, insira um URL da página de resumo do arXiv por linha, por exemplo:
https://arxiv.org/abs/2009.01325 https://arxiv.org/abs/1908.08345
- Depois de salvar o arquivo, execute o comando:
python url_summarize.py --batch urls.txt
- O script processa os URLs no arquivo um por um e retorna todos os resumos no terminal ou no arquivo de saída especificado.
- Crie um arquivo de texto no diretório do projeto (por exemplo
- advertência::
- Certifique-se de que o arquivo de texto esteja formatado corretamente, com um URL válido por linha.
- Um grande número de URLs pode levar muito tempo para ser processado, portanto, é recomendável fazer isso em lotes.
3. extração de resumo de palavras-chave
- mover::
- Editar arquivos de configuração no projeto (por exemplo
config.yaml
ou scripts relacionados), especificando palavras-chave (por exemplomachine learning
) e o intervalo de datas (por exemplo, a semana mais recente). - Executar comando:
python keyword_summarize.py
- O script procura artigos que correspondam às palavras-chave por meio da API do arXiv, faz o download do conteúdo da página do resumo e gera o resumo.
- Os resultados são enviados para o terminal ou salvos em um arquivo especificado.
- Editar arquivos de configuração no projeto (por exemplo
- advertência::
- As palavras-chave precisam ser específicas e evitar que sejam muito amplas (por exemplo
AI
) para melhorar a precisão da pesquisa. - O intervalo de datas é flexível e é recomendável defini-lo para os últimos dias para obter os documentos mais recentes.
- As palavras-chave precisam ser específicas e evitar que sejam muito amplas (por exemplo
4. atualizações diárias automatizadas
- mover::
- Configure as palavras-chave e o caminho de saída (por exemplo, Google Docs ou arquivo local).
- Definir acionadores (com a ajuda do Google Apps Script ou de ferramentas de agendamento locais, como
cron
):- Script do Google Apps::
- Abra o Google Docs e crie um novo script.
- Copie os scripts de automação no projeto (consulte
README.md
). - Na interface do Google Apps Script, clique no ícone "Trigger" para adicionar um acionador diário (por exemplo, 1h todos os dias).
- Salve e autorize a execução do script.
- despacho local::
- fazer uso de
cron
(Linux/Mac) ou Agendador de tarefas (Windows) para configurar uma execução diária.keyword_summarize.py
.
- fazer uso de
- Script do Google Apps::
- O script buscará automaticamente os artigos mais recentes, gerará resumos diariamente e os enviará para um local especificado.
- advertência::
- Certifique-se de que a conexão de rede esteja estável para evitar interrupções nas chamadas de API.
- Verifique regularmente a cota da API do Gemini, pois a versão gratuita tem um limite para o número de chamadas.
Outras dicas de uso
- Preservação de resumosResumo padrão: o resumo padrão é enviado ao terminal, e os resultados podem ser salvos em um arquivo modificando o script (por exemplo
summaries.txt
). - detecção de erros::
- Se a chave da API for inválida, verifique a
url_summarize.py
A chave no - Se a instalação da dependência falhar, tente atualizar o pip (
pip install --upgrade pip
) e reinstalar.
- Se a chave da API for inválida, verifique a
- Contribuições da comunidadeO projeto incentiva os usuários a enviar sugestões de melhorias ou correções de bugs, enviando um problema ou uma solicitação pull via GitHub.
cenário do aplicativo
- pesquisa acadêmica
Os pesquisadores precisam examinar rapidamente um grande número de artigos do arXiv para encontrar estudos relevantes. Usando o recurso Keyword Abstract, insira palavras-chave de campo (por exemplodeep learning
), você pode obter os resumos dos artigos mais recentes todos os dias e economizar tempo de leitura. - Revisão da literatura do aluno
Ao escrever uma dissertação ou revisão, os alunos podem inserir vários URLs de dissertação por meio da função de resumo em lote para acessar rapidamente o conteúdo principal e ajudar a organizar suas anotações bibliográficas. - Rastreamento técnico
Os entusiastas da tecnologia querem acompanhar os últimos desenvolvimentos em um determinado campo. Ao configurar atualizações diárias automáticas, a ferramenta mantém as informações atualizadas, enviando regularmente resumos de documentos relevantes para o Google Docs. - Exploração interdisciplinar
Os não especialistas querem se manter atualizados com os últimos desenvolvimentos em um campo específico (por exemplo, computação quântica). Use o recurso Single Abstract para inserir o URL de um artigo de interesse e obter um resumo fácil de entender.
QA
- Preciso pagar para usar a API do Gemini?
Não, a API do Gemini fornece cota gratuita, que é suficiente para suportar a geração diária de resumos. No entanto, um grande número de operações em lote pode ser limitado pela cota livre, portanto, é recomendável processá-las em lotes. - Suporte para artigos que não sejam do ARXiv?
No momento, somente os artigos do arXiv são compatíveis, pois o script depende da API do arXiv e da estrutura da página. No futuro, ele poderá ser estendido a outras plataformas por meio de contribuições da comunidade. - Qual é a qualidade do resumo?
Os resumos são gerados pela API do Gemini e geralmente extraem o núcleo do artigo com precisão. Entretanto, artigos complexos podem exigir verificação manual para garantir que os principais detalhes não sejam perdidos. - Como evitar o excesso de chamadas de API?
Verifique a cota livre para a API Gemini (geralmente há um limite para o número de chamadas por dia). Recomenda-se limitar o tamanho do processamento em lote ou executar tarefas automatizadas à noite para distribuir as chamadas. - Suporte para documentos chineses?
A maioria dos artigos do arXiv está em inglês, e os scripts e a API do Gemini lidam principalmente com o conteúdo em inglês. O suporte para artigos em chinês é limitado, portanto, precisamos contar com o recurso multilíngue da API Gemini.