该项目创新性地将语音、视觉、触觉反馈整合到同一交互框架中,形成多维感知系统。在语音维度,支持实时打断(Voice Activity Detection阈值可调)与情绪识别(通过音高分析触发对应表情);视觉方面采用双通道输入:既可通过摄像头捕捉用户面部表情,也能分析屏幕内容实现上下文感知(如识别游戏画面后自动切换相关话题)。
技术亮点包括:使用MediaPipe实现面部特征点追踪,将52个关键点数据映射到Live2D模型的混合变形参数;屏幕内容识别采用CLIP模型提取视觉特征,与语言模型的知识库联动。例如当系统检测到屏幕上出现猫咪图片时,AI角色会主动发起宠物相关对话。
触觉层设计独具匠心:点击虚拟角色不同身体部位会触发差异化响应(轻触头部可能获得知识解答,而抚摸腹部则引发撒娇反应),这种设计源自对日式虚拟主播交互范式的深度研究。
This answer comes from the articleOpen-LLM-VTuber: Live2D animated AI virtual companion for real-time voice interactionThe