Skip to content

Simple-MLLM is a lightweight locally deployed Multimodal Large Model (MLLM) practice. Let's get your hands on the magic of MLLM, just on your local machine!Simple-MLLM是一个简易的在本地部署的多模态大模型(MLLM)实践,一起来上手感受MLLM的魔力,仅仅在你的本机上!

License

Notifications You must be signed in to change notification settings

Gnonymous/Simple-MLLM

Repository files navigation

Simple-MLLM

Simple-MLLM

一个轻量级的多模态大模型本地部署方案

GitHub License Python Version GitHub Issues GitHub last commit

Model GitHub Stars

📖 项目简介

Simple-MLLM 是一个轻量级的多模态大模型实践项目,支持图像、文本和语音(开发中)等多种模态输入。本项目旨在帮助开发者快速入门多模态大模型技术,提供简单直观的本地部署方案。

✨ 核心特性

  • 🚀 本地化部署,无需云服务
  • 🎨 支持多模态输入(图像、文本、语音*)
  • 💡 基于 Qwen2-VL-3B 模型
  • 🔧 简单易用的接口设计

🛠️ 项目结构

Simple-MLLM/
├── video/              # 视频处理模块
│   └── vl_model.py    # 视觉语言模型实现
├── test.sh            # 测试脚本
├── test_client.py     # 客户端测试程序
└── requirements.txt   # 项目依赖

🚀 快速开始

环境要求

  • Python 3.8+
  • CUDA 11.7+ (GPU 版本)
  • 8GB+ RAM
  • NVIDIA GPU with 8GB+ VRAM (推荐)

安装步骤

  1. 克隆仓库
git clone https://github.com/yourusername/Simple-MLLM.git
cd Simple-MLLM
  1. 安装依赖
pip install -r requirements.txt
  1. 下载模型
# 从 ModelScope 下载模型权重
python -c "from modelscope import snapshot_download; snapshot_download('Qwen2-VL/qwen/Qwen2-VL-2B-Instruct')"

使用示例

  1. 启动服务
bash test.sh
  1. 运行示例程序
python test_client.py

🔍 示例展示

输入图片: Input Image

系统响应: Output Result

📚 接口文档

VlModel 类

def video_chat(prompt: str, image_list: List[Image]) -> str:
    """
    处理视频帧并生成响应
    Args:
        prompt: 输入提示词
        image_list: 图像帧列表
    Returns:
        生成的文本响应
    """

📝 许可证

本项目采用 MIT 许可证 - 详情请参见 LICENSE 文件

About

Simple-MLLM is a lightweight locally deployed Multimodal Large Model (MLLM) practice. Let's get your hands on the magic of MLLM, just on your local machine!Simple-MLLM是一个简易的在本地部署的多模态大模型(MLLM)实践,一起来上手感受MLLM的魔力,仅仅在你的本机上!

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published