O Omni-Bot-SDK-OSS é uma estrutura de automação do WeChat de código aberto baseada na tecnologia de reconhecimento visual que oferece suporte às operações de RPA (Robot Process Automation) do WeChat versão 4.0. Ele atinge intrusão zero no tempo de execução por meio de modelos YOLO personalizados e tecnologia OCR, adequados para que os desenvolvedores criem tarefas de automação. Os usuários podem acessar dinamicamente plug-ins para adaptar plataformas como OpenAI ou Dify, analisar vários tipos de mensagens, como texto, imagens, arquivos etc., e oferecer suporte ao envio de mensagens e funções estendidas, como operações de applet e círculo de amigos. O projeto está hospedado no GitHub, foi desenvolvido em Python e é adequado para implantação em dispositivos autônomos para evitar interferir nas operações do usuário.
Lista de funções
- Reconhecimento de janelas e análise de conteúdo de mensagens com base no modelo YOLO e na tecnologia OCR.
- Suporte ao acesso dinâmico a plug-ins, compatível com OpenAI, Dify e outras plataformas de terceiros.
- Analisa mensagens do WeChat, incluindo texto, imagens, arquivos e outros tipos.
- Suporte à função de envio de mensagens, incluindo texto, imagens, arquivos, etc.
- Pode ser estendido para publicação de conteúdo para applets e círculos de amigos.
- Processamento de mensagens em tempo real por meio da escuta do banco de dados.
- Oferece um cliente de gerenciamento visual que não requer codificação para funcionar.
Usando a Ajuda
Processo de instalação
Para usar o Omni-Bot-SDK-OSS, siga as etapas abaixo para concluir a instalação localmente ou em um dispositivo autônomo. O processo de preparação e implantação do ambiente é relativamente simples e adequado para desenvolvedores familiarizados com Python.
- armazém de clones
Abra um terminal e execute o seguinte comando para clonar o projeto localmente:git clone https://github.com/weixin-omni/omni-bot-sdk-oss cd omni-bot-sdk-oss
- Criação de um ambiente virtual
Para evitar conflitos de dependência, é recomendável criar um ambiente virtual Python:python -m venv venv source venv/bin/activate # Linux/Mac venv\Scripts\activate # Windows
- Instalação de dependências
Instale as dependências necessárias para o projeto no ambiente virtual:pip install -e .
- arquivo de configuração
O projeto requer um arquivo de configuraçãoconfig.yaml
Ele é usado para definir os parâmetros do Microsoft Windows, da conexão com o banco de dados e assim por diante. Os usuários precisam criar e preencher o arquivo de configuração de acordo com a documentação oficial (README ou Wiki no repositório), que contém o caminho do modelo YOLO, as configurações de OCR e os parâmetros do plug-in. - Estrutura operacional
Use o código a seguir para iniciar a estrutura:from omni_bot_sdk.bot import Bot def main(): bot = Bot(config_path="config.yaml") bot.start() if __name__ == "__main__": main()
Uma vez em execução, a estrutura escuta mensagens por meio do banco de dados e executa tarefas automatizadas com base na configuração.
Funções principais
1. análise e processamento de mensagens
O Omni-Bot-SDK-OSS usa modelos YOLO e tecnologia OCR para reconhecer o conteúdo das mensagens nas janelas do WeChat. Depois de iniciar a estrutura, ele irá:
- Escuta de novas mensagens no banco de dados (banco de dados configurável pelo usuário, como MySQL ou SQLite).
- Analisa o tipo de mensagem (texto, imagem, arquivo, etc.) e armazena o resultado na fila de mensagens.
- Distribua mensagens para a cadeia de plug-ins por meio do gerenciador de plug-ins para executar a lógica personalizada.
Procedimento operacional:
- Configure os parâmetros de conexão do banco de dados (no
config.yaml
(defina o endereço do banco de dados e as credenciais no campo) - Certifique-se de que o cliente da Microsoft esteja em execução no dispositivo de destino e que a janela permaneça visível.
- Depois de iniciar a estrutura, o sistema verifica automaticamente a janela do WeChat, identifica novas mensagens e analisa o conteúdo.
2. mensagens
A estrutura suporta o envio de mensagens de texto, imagem e arquivo para simular operações humanas. Etapas da operação:
- Defina o destino do envio (nome do contato ou do chat em grupo) no plug-in.
- Chame a interface de envio da estrutura, por exemplo:
bot.send_message(contact="目标联系人", message_type="text", content="你好")
- Certifique-se de que a janela do WeChat esteja ativa e o quadro localizará automaticamente a caixa de entrada e a enviará.
tomar nota deIdentificação visual: Devido ao uso da identificação visual, isso pode levar a alvos de envio incorretos quando houver um contato ou bate-papo em grupo com o mesmo nome. Recomenda-se o uso de identificadores exclusivos (por exemplo, nomes de notas) para aumentar a precisão.
3. extensões de plug-in
Os usuários podem estender a funcionalidade escrevendo plug-ins para suportar o OpenAI ou o Dify e outras plataformas. Etapas de desenvolvimento do plug-in:
- existir
plugins
para criar arquivos Python que definem a lógica do plug-in. - O plug-in precisa herdar o
Plugin
e implementa a classeprocess_message
Métodos. - Exemplo de código de plug-in:
from omni_bot_sdk.plugin import Plugin class MyPlugin(Plugin): def process_message(self, message): # 自定义逻辑 return {"action": "send", "content": "收到消息"}
- Registre o plug-in com o
config.yaml
o quadro será carregado automaticamente.
4. cliente de visualização
Para os usuários que não estão familiarizados com a codificação, o projeto fornece um cliente de gerenciamento visual. Etapas da operação:
- Faça o download do cliente (na página de versão do GitHub).
- Após a instalação, abra o cliente e importe
config.yaml
Documentação. - Configure a escuta de mensagens, as regras de envio e os plug-ins por meio da interface sem escrever código.
- O cliente suporta a visualização de filas de mensagens e registros de execução para depuração.
advertência
- Ambiente de implantaçãoA operação da RPA ocupa o mouse e o teclado, e é recomendável executá-la em um dispositivo autônomo para não interferir no uso diário.
- Limitações de precisãoO reconhecimento visual pode estar incorreto devido à sobreposição de janelas ou a problemas de resolução.
- Desenvolvimento de plug-insConsulte a documentação oficial para obter detalhes sobre a API do plug-in e o código de amostra.
cenário do aplicativo
- Atendimento automatizado ao cliente
As empresas podem ouvir as mensagens dos clientes por meio da estrutura e responder automaticamente às perguntas mais frequentes ou encaminhar as mensagens para o atendimento humano ao cliente. Por exemplo, as plataformas de comércio eletrônico podem responder automaticamente a consultas sobre o status do pedido. - Gerenciamento de bate-papo em grupo
Nos bate-papos em grupo do WeChat, a estrutura pode enviar automaticamente anúncios, notificações de eventos ou acionar respostas específicas com base em palavras-chave, adequadas para operações comunitárias ou cenários de marketing. - Coleta de dados
Os desenvolvedores podem usar a análise de mensagens para coletar mensagens de bate-papo em grupo ou de contato, analisar o comportamento do usuário ou extrair informações importantes para pesquisas de mercado. - Distribuição de conteúdo
Os profissionais de mídia ou de automídia podem usar a estrutura para publicar automaticamente links de artigos, imagens ou applets em grupos do WeChat ou círculos de amigos para aumentar a eficiência da disseminação de conteúdo.
QA
- A estrutura é compatível com todas as versões do WeChat?
Atualmente, somente a versão 4.0 do WeChat é compatível. Outras versões podem não ser reconhecidas devido a alterações na interface, portanto, é recomendável testar a compatibilidade. - Como posso melhorar a precisão da entrega de minhas mensagens?
Use nomes exclusivos de notas ou IDs de bate-papo em grupo para evitar conflitos de nomes. Certifique-se de que a janela do WeChat permaneça na frente e visível. - Que conhecimentos prévios são necessários para o desenvolvimento de plug-ins?
Familiarizado com programação Python e princípios básicos de YOLO/OCR. Consulte os exemplos de plug-in na documentação oficial para começar. - O cliente de visualização é gratuito?
Sim, o cliente está incluído no projeto de código aberto e é gratuito para download e uso, mas você mesmo precisa configurar o ambiente.