ビジュアル接客システム構築ガイド
画像認識と多ラウンド対話機能を組み合わせ、3つのステップで構築できる:
- ファイルアップロード処理フロントエンドはユーザー画像をbase64に変換し、それを
messagesアレイ:{ "role": "user", "content": "图片描述", "images": ["data:image/png;base64,..."] } - マルチモーダルモデルの呼び出しビジョンをサポートするモデル(例:gpt-4o)を指定し、そのモデルに
"vision": trueパラメトリック - ビジネス・ロジック処理認識結果をもとに知識ベースと照合する:
画像認識 → キーワード抽出 → 知識ベース検索 → 自然言語応答生成
完全な技術スタックの提案:
- フロントエンド:ドラッグ&ドロップでアップロードできるVue+ElementUI
- バックエンド: Flaskからgenspark2apiへのリレーリクエスト
- オペレーショナル・レイヤーconversation_idセッションの状態を維持する
この答えは記事から得たものである。Genspark2api (失敗)について































