Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O OntoCast é uma estrutura de código aberto hospedada no GitHub que se concentra na extração de triplas semânticas de documentos para criar gráficos de conhecimento. Ele combina gerenciamento de ontologia, processamento de linguagem natural e técnicas de serialização de gráficos de conhecimento para transformar texto não estruturado em dados estruturados e consultáveis. O OntoCast usa extração orientada por ontologia para garantir a consistência semântica e é compatível com vários formatos de arquivo, como texto, JSON, PDF e Markdown. OpenAI ou modelos nativos (por exemplo, via Ollama). Seus principais recursos são a criação automatizada de ontologias, a desambiguação de entidades e a fragmentação semântica para cenários em que as informações estruturadas precisam ser extraídas de documentos complexos. O projeto fornece documentação detalhada e configuração do Docker para implantação e uso rápidos.

 

Lista de funções

  • Extração de tríades semânticas: extraia triplas sujeito-predicado-objeto de documentos para construir gráficos de conhecimento.
  • Gerenciamento de ontologia: crie, valide e otimize automaticamente as ontologias para garantir a consistência semântica.
  • Desambiguação de entidades: Resolva o problema de referências de entidades entre blocos em documentos para melhorar a precisão dos dados.
  • Suporte a vários formatos: lida com vários formatos de arquivo, como texto, JSON, PDF e Markdown.
  • Semantic chunking: segmentação de texto com base na similaridade semântica para otimizar a extração de informações.
  • Suporte ao GraphRAG: suporta a geração de aprimoramentos de pesquisa baseados em gráficos de conhecimento para melhorar os recursos de pesquisa.
  • Compatível com MCP: fornece pontos de extremidade do protocolo de controle de modelos para facilitar a integração e a invocação.
  • Suporte a armazenamento ternário: há suporte para armazenamento ternário Fuseki e Neo4j, sendo preferível o Fuseki.
  • Implementação local e na nuvem: permite a execução local ou o acesso via API REST.

 

Usando a Ajuda

Processo de instalação

A OntoCast é uma estrutura baseada em Python que é recomendada para ser implantada usando o Docker. Aqui estão as etapas detalhadas de instalação e configuração:

  1. projeto de clonagem
    Execute o seguinte comando no terminal para clonar o projeto OntoCast localmente:

    git clone https://github.com/growgraph/ontocast.git
    cd ontocast
    
  2. Instalação de dependências
    O projeto usa o ambiente Python, que é recomendado uv Ferramentas para gerenciar dependências. Execute o seguinte comando para instalá-lo:

    uv pip install -r requirements.txt
    

    Caso contrário uvVocê pode usar o pip Alternativa:

    pip install -r requirements.txt
    
  3. Configuração do armazenamento ternário
    A OntoCast oferece suporte ao Fuseki (recomendado) e ao Neo4j como back-ends de armazenamento ternário. A seguir, um exemplo do Fuseki:

    • entrar em docker/fuseki copie e edite o arquivo de configuração do ambiente:
      cp docker/fuseki/.env.example docker/fuseki/.env
      
    • compilador .env para definir o URI e as informações de autenticação do Fuseki, por exemplo:
      FUSEKI_URI=http://localhost:3032/test
      FUSEKI_AUTH=admin/abc123-qwe
      
    • Inicie o serviço Fuseki:
      cd docker/fuseki
      docker compose --env-file .env up -d
      
  4. Configuração do modelo de idioma
    O OntoCast é compatível com OpenAI ou modelos nativos (por exemplo, via Ollama). Edite o diretório raiz do projeto .env que configura os parâmetros do modelo:

    LLM_PROVIDER=openai
    LLM_MODEL_NAME=gpt-4o-mini
    LLM_TEMPERATURE=0.0
    OPENAI_API_KEY=your_openai_api_key_here
    

    Se estiver usando um modelo local (por exemplo, Ollama), defina:

    LLM_PROVIDER=ollama
    LLM_BASE_URL=http://localhost:11434
    
  5. Serviços operacionais
    Use o seguinte comando para iniciar o serviço OntoCast:

    uv run serve --ontology-directory ONTOLOGY_DIR --working-directory WORKING_DIR
    

    Entre eles.ONTOLOGY_DIR é o caminho de armazenamento do arquivo da ontologia.WORKING_DIR é um diretório de trabalho para armazenar dados processados.

  6. Criação de uma imagem do Docker (opcional)
    Se quiser executar a OntoCast usando o Docker, você pode criar uma imagem:

    docker buildx build -t growgraph/ontocast:0.1.4 .
    

Uso

A principal função do OntoCast é extrair triplas semânticas e criar um gráfico de conhecimento:

  1. Preparar o documento
    Coloque o documento a ser processado (são aceitos os formatos de texto, JSON, PDF ou Markdown) no arquivo data/ Catálogo. O projeto fornece dados de amostra que podem ser referenciados data/ arquivos no diretório.
  2. Executar o processo de extração
    A OntoCast fornece uma ferramenta de linha de comando e uma API REST para execução:

    • método de linha de comando
      Usar ferramentas CLI para processar documentos:

      uv run ontocast process --input data/sample.md --output output.ttl
      

      Isso colocará sample.md O arquivo é processado em triplas RDF e enviado para o output.ttl (formato de tartaruga).

    • Método da API REST
      Depois de iniciar o serviço, acesse o /process Pontos finais:

      curl -X POST http://localhost:8999/process -H "Content-Type: application/json" -d '{"input": "data/sample.md"}'
      

      A resposta retornará os dados ternários e de ontologia extraídos.

  3. Exibir resultados
    Após o processamento, os resultados são armazenados em um armazenamento ternário (por exemplo, Fuseki). Os resultados são armazenados em um armazenamento ternário (por exemplo, Fuseki), que pode ser acessado por meio da interface da Web do Fuseki (padrão). http://localhost:3032) consultar o Knowledge Graph ou usar a linguagem de consulta SPARQL para obter dados.
  4. Otimização da ontologia
    O OntoCast oferece suporte à otimização automática da ontologia. Se precisar ajustar a ontologia manualmente, você pode editar o arquivo data/ontologies/ arquivo de ontologia no diretório e execute novamente o processo de extração.
  5. Usando o GraphRAG
    O OntoCast oferece suporte à geração de aumento de recuperação baseada em gráficos de conhecimento (GraphRAG). Após a conclusão do processamento, a pesquisa semântica é realizada usando o gráfico de conhecimento gerado:

    uv run ontocast search --query "特定关键词" --graph output.ttl
    

    Isso retornará resultados ternários relacionados à palavra-chave.

Operação da função em destaque

  • fragmentação semânticaOntoCast divide automaticamente documentos longos em partes semanticamente semelhantes, garantindo uma extração mais precisa de triplas. Os usuários não precisam definir os parâmetros de fragmentação manualmente, o sistema os processará automaticamente de acordo com a similaridade semântica.
  • discriminação físicaO OntoCast identifica e unifica referências de entidades ao lidar com documentos múltiplos ou longos. Por exemplo, "Apple" pode se referir a uma empresa ou a uma fruta em diferentes contextos, e o OntoCast os classificará corretamente de acordo com o contexto.
  • Suporte a vários formatosOs usuários podem carregar arquivos PDF ou Markdown diretamente, que o OntoCast converte automaticamente para o formato de processamento interno sem pré-processamento adicional.
  • Compatibilidade com MCP: através de /process o OntoCast é compatível com o Model Control Protocol para facilitar a integração com outros sistemas.

advertência

  • Certifique-se de que o serviço de armazenamento ternário (por exemplo, Fuseki) esteja funcionando corretamente; caso contrário, os resultados da extração não serão salvos.
  • Ao processar documentos grandes, é recomendável definir o RECURSION_LIMIT responder cantando ESTIMATED_CHUNKS para evitar problemas de desempenho.
  • A documentação do projeto está localizada em docs/ que fornece guias de usuário detalhados e referências de API.

 

cenário do aplicativo

  1. pesquisa acadêmica
    Os pesquisadores podem usar o OntoCast para extrair os principais conceitos e relacionamentos de artigos acadêmicos para criar um gráfico de conhecimento de domínio. Por exemplo, ao lidar com artigos de biologia, os genes, as proteínas e suas interações podem ser extraídos para gerar uma base de conhecimento consultável.
  2. Gerenciamento de documentos corporativos
    As empresas podem converter documentos internos (por exemplo, manuais técnicos, contratos) em gráficos de conhecimento para recuperação e análise rápidas. Por exemplo, a extração de termos, valores e informações de partes relacionadas de contratos melhora a eficiência do gerenciamento de informações.
  3. Otimização da pesquisa semântica
    Os desenvolvedores da Web podem usar o OntoCast para criar uma funcionalidade de pesquisa semântica que extrai dados estruturados de conteúdo não estruturado e melhora a precisão dos resultados da pesquisa.
  4. Sistema inteligente de perguntas e respostas (Q&A)
    O OntoCast pode oferecer suporte a gráficos de conhecimento para sistemas de perguntas e respostas. Por exemplo, extrair triplas de um documento de FAQ da empresa para responder a perguntas específicas do usuário sobre um produto ou serviço.

 

QA

  1. Quais formatos de arquivo são compatíveis com o OntoCast?
    Há suporte para os formatos de texto, JSON, PDF e Markdown. Mais formatos poderão ser ampliados no futuro.
  2. Como escolher o armazenamento ternário?
    O Fuseki é recomendado para uma configuração mais simples e melhor desempenho do que o Neo4j. Consulte docker/fuseki/.env.example Configuração.
  3. É necessária uma ontologia predefinida?
    O OntoCast gera e otimiza ontologias automaticamente e também suporta ontologias personalizadas fornecidas pelo usuário.
  4. Como você lida com documentos grandes?
    Sugestões de adições ESTIMATED_CHUNKS (por exemplo, definido como 50) e certifique-se de que os recursos de hardware sejam suficientes. O chunking semântico é otimizado automaticamente para processamento.
  5. Quais modelos de idioma são compatíveis?
    Modelos que suportam OpenAI (por exemplo. gpt-4o-mini) e modelos locais (por exemplo, os executados pelo Ollama).
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil