Simple-MLLM

一个轻量级的多模态大模型本地部署方案

📖 项目简介

Simple-MLLM 是一个轻量级的多模态大模型实践项目，支持图像、文本和语音（开发中）等多种模态输入。本项目旨在帮助开发者快速入门多模态大模型技术，提供简单直观的本地部署方案。

✨ 核心特性

🚀 本地化部署，无需云服务
🎨 支持多模态输入（图像、文本、语音*）
💡 基于 Qwen2-VL-3B 模型
🔧 简单易用的接口设计

🛠️ 项目结构

Simple-MLLM/
├── video/              # 视频处理模块
│   └── vl_model.py    # 视觉语言模型实现
├── test.sh            # 测试脚本
├── test_client.py     # 客户端测试程序
└── requirements.txt   # 项目依赖

🚀 快速开始

环境要求

Python 3.8+
CUDA 11.7+ (GPU 版本)
8GB+ RAM
NVIDIA GPU with 8GB+ VRAM (推荐)

安装步骤

克隆仓库

git clone https://github.com/yourusername/Simple-MLLM.git
cd Simple-MLLM

安装依赖

pip install -r requirements.txt

下载模型

# 从 ModelScope 下载模型权重
python -c "from modelscope import snapshot_download; snapshot_download('Qwen2-VL/qwen/Qwen2-VL-2B-Instruct')"

使用示例

启动服务

bash test.sh

运行示例程序

python test_client.py

🔍 示例展示

输入图片：

系统响应：

📚 接口文档

VlModel 类

def video_chat(prompt: str, image_list: List[Image]) -> str:
    """
    处理视频帧并生成响应
    Args:
        prompt: 输入提示词
        image_list: 图像帧列表
    Returns:
        生成的文本响应
    """

📝 许可证

本项目采用 MIT 许可证 - 详情请参见 LICENSE 文件

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
Introduce		Introduce
audio		audio
imgs		imgs
server		server
video		video
.DS_Store		.DS_Store
.gitignore		.gitignore
LICENSE		LICENSE
Readme.md		Readme.md
run.sh		run.sh
test_client.py		test_client.py
test_video_thread.py		test_video_thread.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Simple-MLLM

📖 项目简介

✨ 核心特性

🛠️ 项目结构

🚀 快速开始

环境要求

安装步骤

使用示例

🔍 示例展示

📚 接口文档

VlModel 类

📝 许可证

About

Releases

Packages

Languages

License

Gnonymous/Simple-MLLM

Folders and files

Latest commit

History

Repository files navigation

Simple-MLLM

📖 项目简介

✨ 核心特性

🛠️ 项目结构

🚀 快速开始

环境要求

安装步骤

使用示例

🔍 示例展示

📚 接口文档

VlModel 类

📝 许可证

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages