O RAGLight é compatível com duas fontes de dados principais:
- pasta localDocumentos: Os documentos podem ser importados em PDF, arquivo de texto e outros formatos. A configuração requer o uso de
FolderSource
Especifique o caminho da pasta, por exemploFolderSource(path="/path/to/your/folder/knowledge_base")
. - Repositórios do GitHubSuporte para extração de documentos de repositórios públicos. A configuração requer o uso da opção
GitHubSource
e forneça a URL do repositório, por exemploGitHubSource(url="https://github.com/Bessouat40/RAGLight")
.
Os usuários podem adicionar essas fontes de dados ao pipeline do RAG ao inicializar o knowledge_base
o RAGLight processa automaticamente o documento e gera o armazenamento de vetores.
Essa resposta foi extraída do artigoRAGLight: biblioteca Python de geração de aumento de recuperação leveO