环境准备指南
在安装HumanOmni前,需要确保系统满足以下技术要求:
硬件要求
- 显卡:推荐NVIDIA GPU(显存≥12GB)
- CPU:最低4核处理器(仅CPU模式性能较低)
- 内存:建议32GB以上
软件依赖
- 基础环境:Python 3.10+/PyTorch 2.2+
- 加速组件:CUDA 12.1+(GPU用户必需)
- 特殊依赖:flash-attn高性能注意力库
四步安装流程
- 克隆仓库:
git clone https://github.com/HumanMLLM/HumanOmni.git
- 创建conda环境:
conda create -n humanOmni python=3.10
- 安装依赖:
pip install -r requirements.txt
- 下载模型:从Hugging Face获取7B参数模型(约10GB)
验证安装
运行测试命令:python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4
,成功输出视频描述即表示安装完成。
本答案来源于文章《HumanOmni:分析人类视频情感和动作的多模态大模型》