Simple-MLLM 是一个轻量级的多模态大模型实践项目,支持图像、文本和语音(开发中)等多种模态输入。本项目旨在帮助开发者快速入门多模态大模型技术,提供简单直观的本地部署方案。
- 🚀 本地化部署,无需云服务
- 🎨 支持多模态输入(图像、文本、语音*)
- 💡 基于 Qwen2-VL-3B 模型
- 🔧 简单易用的接口设计
Simple-MLLM/
├── video/ # 视频处理模块
│ └── vl_model.py # 视觉语言模型实现
├── test.sh # 测试脚本
├── test_client.py # 客户端测试程序
└── requirements.txt # 项目依赖
- Python 3.8+
- CUDA 11.7+ (GPU 版本)
- 8GB+ RAM
- NVIDIA GPU with 8GB+ VRAM (推荐)
- 克隆仓库
git clone https://github.com/yourusername/Simple-MLLM.git
cd Simple-MLLM
- 安装依赖
pip install -r requirements.txt
- 下载模型
# 从 ModelScope 下载模型权重
python -c "from modelscope import snapshot_download; snapshot_download('Qwen2-VL/qwen/Qwen2-VL-2B-Instruct')"
- 启动服务
bash test.sh
- 运行示例程序
python test_client.py
def video_chat(prompt: str, image_list: List[Image]) -> str:
"""
处理视频帧并生成响应
Args:
prompt: 输入提示词
image_list: 图像帧列表
Returns:
生成的文本响应
"""
本项目采用 MIT 许可证 - 详情请参见 LICENSE 文件