Omni-Bot-SDK-OSSは、WeChatバージョン4.0のRPA(Robot Process Automation)操作をサポートする視覚認識技術に基づいたオープンソースのWeChat自動化フレームワークです。カスタムYOLOモデルとOCR技術により、ランタイム侵入ゼロを実現し、開発者が自動化タスクを構築するのに適しています。ユーザーは、OpenAIやDifyなどのプラットフォームを適応させるプラグインに動的にアクセスし、テキスト、画像、ファイルなどの複数のメッセージタイプを解析し、メッセージ送信やアプレットやフレンドサークル操作などの拡張機能をサポートすることができます。このプロジェクトはGitHubでホストされており、Pythonで開発され、ユーザーの操作を妨げないようにスタンドアロンデバイスでの展開に適しています。
機能一覧
- YOLOモデルとOCR技術に基づくウィンドウ認識とメッセージ内容の解析。
- プラグインへの動的アクセスをサポートし、OpenAI、Dify、その他のサードパーティプラットフォームと互換性があります。
- テキスト、画像、ファイル、その他のタイプを含むWeChatメッセージを解析します。
- テキスト、画像、ファイルなどのメッセージ送信機能をサポート。
- アプレットやサークル・オブ・フレンドのコンテンツ・パブリッシングに拡張可能。
- データベースリスニングによるリアルタイムメッセージ処理。
- コーディング不要のビジュアル管理クライアントを提供。
ヘルプの使用
設置プロセス
Omni-Bot-SDK-OSSを使用するには、以下の手順に従ってローカルまたはスタンドアロンデバイスへのインストールを完了してください。環境の準備とデプロイプロセスは比較的簡単で、Pythonに慣れている開発者に適しています。
- クローン倉庫
ターミナルを開き、以下のコマンドを実行してプロジェクトをローカルにクローンする:git clone https://github.com/weixin-omni/omni-bot-sdk-oss cd omni-bot-sdk-oss
- 仮想環境の構築
依存関係の衝突を避けるために、Pythonの仮想環境を作成することをお勧めします:python -m venv venv source venv/bin/activate # Linux/Mac venv\Scripts\activate # Windows
- 依存関係のインストール
プロジェクトに必要な依存関係を仮想環境にインストールします:pip install -e .
- 設定ファイル
プロジェクトには設定ファイルが必要です。config.yaml
これは、マイクロソフトウィンドウ、データベース接続などのパラメータを設定するために使用される。ユーザーは、YOLOモデルパス、OCR設定、プラグインパラメータを含む公式ドキュメント(リポジトリ内のREADMEまたはWiki)に従って、設定ファイルを作成し、記入する必要があります。 - 運営体制
フレームワークを起動するには、以下のコードを使用する:from omni_bot_sdk.bot import Bot def main(): bot = Bot(config_path="config.yaml") bot.start() if __name__ == "__main__": main()
いったん実行されると、フレームワークはデータベースを通じてメッセージをリッスンし、設定に基づいて自動化されたタスクを実行する。
主な機能
1.メッセージの解析と処理
Omni-Bot-SDK-OSSは、YOLOモデルとOCR技術を使って、WeChatウィンドウのメッセージ内容を認識する。フレームワークを起動すると
- データベース(MySQLやSQLiteなど、ユーザーが設定可能なデータベース)の新しいメッセージをリッスンする。
- メッセージ・タイプ(テキスト、イメージ、ファイルなど)を解析し、結果をメッセージ・キューに格納する。
- カスタムロジックを実行するために、プラグインマネージャーを通してプラグインチェーンにメッセージを配信する。
操作手順:
- データベース接続パラメータを設定する
config.yaml
(でデータベースのアドレスと認証情報を設定する)。 - マイクロソフトクライアントがターゲットデバイス上で実行され、ウィンドウが表示されたままであることを確認します。
- フレームワークを起動すると、システムは自動的にWeChatのウィンドウをスキャンし、新しいメッセージを識別し、内容を解析する。
2.メッセージング
このフレームワークは、テキスト、画像、ファイルメッセージの送信をサポートし、人間の操作をシミュレートする。操作ステップ
- プラグインで送信対象(連絡先またはグループチャット名)を定義します。
- 例えば、フレームワークの送信インターフェースを呼び出す:
bot.send_message(contact="目标联系人", message_type="text", content="你好")
- WeChatのウィンドウがアクティブになっていることを確認すると、フレームが自動的に入力ボックスを見つけて送信します。
銘記する視覚的な識別を使用しているため、同じ名前の連絡先やグループチャットがある場合、誤った送信対象になる可能性があります。精度を高めるため、一意の識別子(ノート名など)を使用することをお勧めします。
3.プラグイン拡張機能
ユーザーは、OpenAIをサポートするプラグインを書くことによって、機能を拡張することができる。 ダイファイ およびその他のプラットフォーム。プラグイン開発のステップ
- ある
plugins
ディレクトリにプラグインロジックを定義するPythonファイルを作成します。 - プラグインはフレームワークの
Plugin
クラスを実装しprocess_message
方法。 - プラグインのサンプルコード
from omni_bot_sdk.plugin import Plugin class MyPlugin(Plugin): def process_message(self, message): # 自定义逻辑 return {"action": "send", "content": "收到消息"}
- プラグインを
config.yaml
フレームは自動的にロードされます。
4.ビジュアライゼーション・クライアント
コーディングに不慣れなユーザーのために、プロジェクトは視覚的な管理クライアントを提供する。操作手順
- クライアントをダウンロードする(GitHubのリリースページから)。
- インストール後、クライアントを開き
config.yaml
ドキュメンテーション - コードを書くことなく、インターフェースを通じてメッセージのリスニング、送信ルール、プラグインを設定できます。
- クライアントは、デバッグ用のメッセージキューと実行ログの閲覧をサポートしている。
ほら
- 展開環境RPAの操作はマウスとキーボードを使うので、日常的な使用に支障をきたさないよう、スタンドアロンで実行することが推奨される。
- 精度の限界ウィンドウの重なりや解像度の問題により、視覚的に正しく認識されない場合があります。
- プラグイン開発詳細なプラグインAPIとサンプルコードについては、公式ドキュメントをご覧ください。
アプリケーションシナリオ
- 自動化されたカスタマーサービス
企業はフレームワークを通じて顧客のメッセージを聞き、よくある質問に自動的に返信したり、人間のカスタマーサービスにメッセージを転送したりすることができる。例えば、eコマース・プラットフォームは、注文状況の問い合わせに自動的に返信することができる。 - グループチャット管理
WeChatのグループチャットでは、フレームワークが自動的にお知らせやイベント通知を送信したり、キーワードに基づいて特定の返信をトリガーしたりすることができ、コミュニティの運営やマーケティングのシナリオに適している。 - データ収集
開発者は、メッセージ解析を使用して、グループチャットやコンタクトメッセージを収集したり、ユーザーの行動を分析したり、市場調査のために重要な情報を抽出したりすることができます。 - コンテンツ配信
メディアやセルフメディアの実務者は、このフレームワークを利用して、WeChatのグループや友人のサークルに記事のリンクや写真、アプレットを自動的に公開し、コンテンツの普及効率を高めることができる。
品質保証
- フレームワークはすべてのWeChatバージョンをサポートしていますか?
現在、WeChatバージョン4.0のみがサポートされています。他のバージョンはインターフェイスの変更により認識されない可能性がありますので、互換性をテストすることをお勧めします。 - メッセージ配信の精度を高めるには?
同名の競合を避けるため、ユニークなノート名またはグループチャットIDを使用してください。WeChat ウィンドウが前面に表示されていることを確認してください。 - プラグイン開発に必要な予備知識は?
PythonプログラミングとYOLO/OCRの基本原則に精通していること。公式ドキュメントのプラグイン例を参考にしてください。 - 視覚化クライアントは無料ですか?
そう、クライアントはオープンソースプロジェクトに含まれており、無料でダウンロードして使用できるが、環境は自分で設定する必要がある。