Introdução geral
O Juhe AI (juhe-ai) é um sistema leve de gerenciamento de agendamento de contas e trânsito de big models para indivíduos, pequenas equipes e estúdios. Seu foco principal é o acesso ao protocolo compatível com OpenAI, que é capaz de centralizar e convergir várias contas fragmentadas de big model upstream (como OpenAI OAuth ou chaves de API tradicionais) e fornecer um padrão unificado para uso externo. /v1 Portal de chamadas. Por meio dessa plataforma, os usuários podem facilmente obter a manutenção centralizada de várias contas, o isolamento de autorização por agrupamento de negócios, a repetição inteligente de falhas e a troca de agendamento sem sentido. O sistema tem painéis de dados abrangentes integrados e funções de auditoria de registros, que não apenas registram registros de chamadas de modelo em tempo real, consumo de token e custos estimados, mas também monitoram e rastreiam a tendência de desempenho de resposta à primeira palavra das interfaces de IA. Graças à seleção de tecnologia leve do Node.js e do SQLite, o AI Aggregation não precisa configurar dependências de cluster complexas e altamente disponíveis, como o Redis, e oferece suporte à implantação rápida localizada com um clique, o que reduz muito a complexidade da programação do desenvolvedor de grandes recursos de modelo multiplataforma e controle de permissões, para que o serviço de IA possa sempre ser executado de forma eficiente e estável.
Lista de funções
- Passagem de interface padronizada unificadaExposição externa: atende aos padrões do setor
/v1Ele é perfeitamente compatível com o Codex, OpenAI SDK, Cherry Studio, NextChat e outras ferramentas de cliente convencionais, obtendo acesso ininterrupto com nenhuma modificação no código do cliente. - Programação inteligente de várias contas DespachoEle oferece suporte à configuração de pool de carga de alta disponibilidade, que filtra automaticamente as contas disponíveis ao lidar com solicitações altamente simultâneas; ao acionar a limitação de fluxo, anomalia de API ou no período de resfriamento, ele alterna automaticamente e sem interrupções para o mesmo grupo de contas em espera para garantir que os negócios de front-end não sejam interrompidos.
- Estatísticas e auditoria de dados em todo o linkA camada subjacente registra automaticamente todos os detalhes da solicitação, incluindo precisamente o modelo de cada chamada, o envio e o recebimento Token Uso, detalhamento de tempo e estimativas de custo em dólares, com visualização clara de tendências estatísticas e resumos de solução de problemas de erros.
- Controle de segregação da autoridade do grupoEle suporta o agrupamento multidimensional de diferentes contas upstream de alto desempenho, gera chaves de API locais exclusivas e vincula grupos específicos de acordo com diferentes equipes ou linhas de negócios, de modo a obter isolamento físico e controle de segurança refinado da invocação de recursos.
- Monitoramento abrangente do desempenho da IA em tempo realFornece painéis de desempenho detalhados, não apenas contando os custos básicos, mas também oferecendo suporte à visualização bidirecional das tendências extremas médias e máximas de “First Token” e “Total Time” para ajudar os usuários a solucionar com precisão os gargalos da rede.
- Implementação minimalista de localização de plataforma completaDesenvolvimento de aplicativos no lado do servidor do Node.js, o fallback de dados padrão depende do SQLite leve, diga adeus aos componentes externos pesados. Suporte à execução de código-fonte e fornecimento de pacotes pré-compilados, suporte nativo para implantação com um clique em ambientes Windows, macOS e Linux.
Usando a Ajuda
I. Instalação do sistema de IA de convergência e processos de implantação de luz
O Aggregate AI oferece uma experiência de implementação extremamente leve para os usuários, sejam eles usuários individuais sem experiência em programação ou desenvolvedores full-stack que podem colocá-lo em funcionamento em poucas etapas.
1. uso de pacotes de distribuição pré-compilados (recomendado para usuários diários e usuários com experiência rápida)
Oficialmente, as dependências do ambiente foram empacotadas e processadas para dar suporte à inicialização rápida de todos os principais sistemas operacionais.
- Ambiente Windows pronto para uso:
- Obtenha as últimas informações na página de lançamento do projeto
juhe-ai-release.zipZip. - Abra um terminal do PowerShell e descompacte o pacote:
Expand-Archive .\juhe-ai-release.zip -DestinationPath . -Force。 - Vá para o diretório dos arquivos extraídos:
Set-Location .\juhe-ai-release。 - Execute o script de inicialização do sistema para iniciar o serviço:
pwsh .\start.ps1。
- Obtenha as últimas informações na página de lançamento do projeto
- Implementação com um clique para ambientes macOS/Linux:
- Pronto para download
juhe-ai-release.tar.gzDocumentação. - Execute o comando unzip em uma janela de terminal:
tar -xzf juhe-ai-release.tar.gz。 - Mude para o diretório correspondente:
cd juhe-ai-release。 - Conceda permissões e execute o script de inicialização:
bash ./start.sh。
Quando o serviço for iniciado, acesse-o diretamente em seu navegadorhttp://服务器IP:3000/Você pode acessar a bela interface de administração do Ant Design Vue. A conta e a senha padrão do administrador sãoadminPor motivos de segurança, não se esqueça de alterar a senha complexa no painel de configurações após o primeiro login.
- Pronto para download
2. desenvolvimento e implantação de ambiente de código-fonte (recomendado para desenvolvedores profissionais e usuários que precisam de personalização)
Para desenvolvimento secundário ou personalização, certifique-se de ter o Node.js (>= 22.13.0) e o gerenciador de pacotes pnpm (>= 9.0.0) instalados em seu ambiente.
- Clone o código-fonte do projeto em seu computador local por meio do Git:
git clone https://github.com/huanmin123/juhe-ai.git。 - Vá para o diretório raiz do projeto e execute a instalação da dependência do pacote:
pnpm install。 - Copie os modelos de perfil de variável de ambiente para o back-end e o front-end para inicializar os parâmetros locais:
Copy-Item backend/.env.example backend/.env
Copy-Item frontend/.env.example frontend/.env(Observação: se você estiver no Linux, use diretamente ocpcomando). - Executar um servidor de desenvolvimento full-stack:
pnpm dev。
Após a conclusão da inicialização, a GUI de front-end será hospedada no servidorhttp://127.0.0.1:5173O gateway de proxy compatível com OpenAI para todos os aplicativos externos está localizado no diretóriohttp://127.0.0.1:3000/v1。
II. Diretrizes Operacionais do Módulo de Negócios Principais da Convergência AI
Depois de concluir a criação da estrutura e fazer o login, siga as três etapas seguintes de padronização de fluxo de circuito fechado para transformar ativos de API fragmentados em um hub de agendamento robusto.
Etapa 1: Insira a base de contas do Real Big Model (gerenciamento de contas de IA)
- Na árvore de navegação de funções à esquerda, clique em “Gerenciamento de contas de IA” 或 “Minha conta de IA”.”acesso ao Asset Control Centre.
- Ao clicar no botão “Add Account” (Adicionar conta) no canto superior direito, o sistema é totalmente compatível com as principais credenciais do mercado - você pode inserir um token OpenAI OAuth capturado ou uma chave de API oficial tradicional (
sk-...formato). - No formulário, é possível ajustar o controle dessa conta: personalizaçãoprioridade de ponderaçãoDecidir os pesos e as configurações do balanceamento de cargalimite de simultaneidadeEvite o bloqueio. Se você estiver em um ambiente de rede especial, o sistema suporta até mesmo a configuração de endereços proxy independentes para contas diferentes.
- Depois que as informações forem salvas e enviadas, o trabalhador subjacente da IA de agregação iniciará instantaneamente a detecção assíncrona de batimentos cardíacos, e a conta será transferida para a fila disponível imediatamente após a verificação da conectividade.
Etapa 2: Agrupamento de negócios de arquitetura e atribuição de direitos de acesso (controle de agrupamento)
A alma do agendamento de várias contas é o isolamento de grupo altamente flexível.
- Vá para o item de configuração relevante para criar umagrupamentos(por exemplo, nomeados como: “Grupo de teste de alta frequência do departamento de desenvolvimento”, “Específico do corpo de inteligência de acoplamento de negócios”).
- As várias contas upstream com alta conectividade que acabaram de ser inseridas serão marcadas e vinculadas a esse grupo. Assim que o servidor de retransmissão receber uma solicitação marcada com esse grupo, ele começará a sondar todas as contas válidas contidas nesse grupo; se ocorrer um erro 429 (muitas solicitações) para qualquer conta, o sistema iniciará silenciosamente uma nova tentativa automática para a próxima conta íntegra, garantindo que o texto de streaming no lado da saída não seja atrasado.
Etapa 3: produzir e distribuir chaves secretas de chamadas de terminal (emissão de chaves de API)
- Mudar para a funcionalidade principal do “Gerenciamento de chaves de API” Interface.
- Clique em “Generate new key” (Gerar nova chave) para especificar a finalidade da chave e montar aagrupamento de empresas。
- Nesse ponto, a IA agregada derivará uma sequência totalmente nova de
sk-xxxChaves locais. Emita-as para a pessoa comercial final ou preencha a ferramenta de bate-papo, e a chave upstream real ficará oculta para sempre no cofre do banco de dados, alcançando segurança absoluta.
Etapa 4: Conecte o cliente para ter uma interação suave e sedosa
A configuração está concluída, agora abra qualquer uma de suas plataformas de aplicativos de IA (por exemplo Cursor (Editor, Chatbox, NextChat, etc.):
- Procure uma página de configuração que coloque a rede Endereço da interface (URL base) adulteração de seus URLs de proxy de IA agregados proprietários, por exemplo:
http://127.0.0.1:3000/v1。 - A string que acabou de ser emitida seráChave de API virtual Preencha o campo de identificação.
- Você pode iniciar um diálogo contínuo sem medo, pois todo o tedioso trabalho de programação e failover foi assumido silenciosamente pela IA da Convergência.
III. acesso e uso da tela de monitoramento de auditoria do sistema
O painel de desempenho do sistema é de grande valia para a manutenção de longo prazo. No Overview Dashboard (Painel de visão geral), o sistema compilou uma visão panorâmica dos últimos 31 dias, visualizando para onde está indo a taxa de sucesso de solicitações em todo o domínio, os picos de rendimento de tokens em um único dia e as estimativas de custo de consumo.
Se você receber feedback dos seus usuários de que “a IA está lenta para responder ultimamente”, poderá acessar imediatamente o painel especial **“Performance Monitor ”** do sistema. Com a poderosa lógica subjacente das estatísticas do Echarts, esse painel pode analisar com precisão o valor extremo e a tendência média do “Tempo de aquisição do primeiro token” e do “Tempo total de geração de diálogo” em cada fila de solicitação. Você pode usar esses dados para determinar com precisão se o fornecedor do modelo upstream está congestionado ou se o nó de proxy de rede configurado tem alta latência, para que você possa implementar manutenção e ajuste direcionados.
cenário do aplicativo
- Distribuição coordenada de recursos de modelos grandes nas equipes de P&D da empresa
Em equipes de P&D de pequeno e médio porte, elas geralmente compram apenas um número muito pequeno de chaves de API de grande valor e de nível empresarial e, se distribuírem as chaves originais, é muito fácil que os membros as vazem acidentalmente, resultando em perdas graves, e não há como rastrear a origem do uso indevido. Ao agregar a IA para criar um firewall, os administradores podem criar um pool de recursos unificado para contas mestras e distribuir subchaves com permissões refinadas por equipe ou funcionários específicos, o que não apenas protege o risco de vazamento das credenciais originais, mas também permite que painéis de dados avançados contabilizem as despesas de diferentes linhas de negócios. - Desenvolvedores individuais pesados garantem fluxos de coração altamente utilizáveis para ferramentas
Diante de desenvolvedores independentes que são extremamente dependentes de plug-ins complementares associados a códigos e clientes de bate-papo de terceiros, os tempos limite da rede ou o acionamento oficial de uma única conta de restrições severas de controle de fluxo podem interromper seriamente o fluxo de desenvolvimento. Usando os recursos de simultaneidade de várias contas e de comutação automática de falhas do sistema, várias subcontas com créditos baixos ou gratuitos são carregadas no mesmo grupo de chamadas ao mesmo tempo. Quando a cota da conta principal se esgotar ou houver restrição de fluxo de curto prazo, o mecanismo de agendamento mudará para o pool de backup em milissegundos para continuar a atender, a fim de garantir que o front-end esteja sempre on-line. - Contabilidade precisa de projetos para pequenos estúdios de terceirização
Ao desenvolver ou manter bots de diálogo de IA e órgãos inteligentes de atendimento ao cliente para várias partes diferentes, os estúdios geralmente enfrentam dificuldades com uma conta confusa. Ao atribuir grupos isolados e chaves virtuais independentes a cada projeto de terceirização na plataforma de IA, a pessoa técnica responsável pelo estúdio pode chamar o fluxo de chamadas de token e o custo equivalente em dólares do projeto especificado no período especificado a partir dos registros de auditoria originais do back-end com um clique, de modo a realizar baixas de custos claras e padronizadas entre as partes A e B.
QA
- A Aggregate AI oferecerá suporte ao acesso a grandes modelos desenvolvidos internamente que não sejam da OpenAI no futuro?
O foco estratégico atual desse sistema é maximizar a retransmissão de interação e a programação leve com base no protocolo OpenAI, de modo que ele suporta principalmente APIs compatíveis com OpenAI (/v1). No entanto, do ponto de vista da arquitetura geral do código do sistema, os autores reservaram um bom fornecedor para ampliar o espaço da interface (mecanismo do provedor), não descartam a manutenção e a atualização futuras para expandir gradualmente o modelo ecológico doméstico de código fechado de suporte à adaptação suave. - Minhas principais chaves de API estão hospedadas nesse sistema. A segurança é garantida?
Você pode ficar tranquilo. O Aggregate AI foi projetado de forma arquitetônica para eliminar todas as dependências de nuvem e comunicações externas. Os dados do sistema são armazenados em um banco de dados de arquivo SQLite totalmente localizado e de leitura e gravação (fisicamente armazenado no mesmo nível do código).backend/data/(diretório). Desde que o seu servidor tenha permissões restritas e não monte diretórios confidenciais na extranet, todas as suas chaves de alto valor configuradas, registros de chamadas de bate-papo e gráficos de dados ficarão quietos no seu disco rígido particular. - Como a Aggregate AI pode resolver o ocasional “tempo limite do proxy da Web” ou “falha de alta simultaneidade do modelo”?
O sistema é equipado com mecanismos extremamente inteligentes de fusão de exceções e tratamento dinâmico de degradação. Quando ocorre um erro ou uma anomalia de geração de modelo devido ao bloqueio de um nó upstream, o gateway de back-end do Convergence AI não retornará imediatamente um relatório de erro em vermelho para a janela de bate-papo do usuário, mas marcará a conta defeituosa como “esfriando” na camada inferior e a retirará do pool de sondagem de agendamento sem qualquer sensação. Em seguida, o sistema solicita novamente a conversa dentro dos grupos de contas saudáveis restantes, bloqueando completamente as flutuações de serviço dentro do sistema e alcançando uma estabilidade externa sem sensores. - Preciso ter um servidor altamente configurado para executá-lo?
Não há necessidade. O conceito de design do sistema é um middleware leve e minimalista, eliminando especificamente os componentes de cache Redis pesados do gateway comercial convencional e as filas de mensagens Kafka, apenas com E/S assíncrona eficiente do Node.js e leitura e gravação simultâneas subjacentes simplificadas do SQLite. Para a grande maioria dos desenvolvedores individuais e dezenas de pequenas microequipes, um host doméstico básico, Raspberry Pi ou uma configuração muito baixa de servidores em nuvem leves (como 1 núcleo 2G) será suficiente para dar suporte a despejos de solicitações de streaming altamente simultâneos e auditorias de registro.













