Qwen2VL-TriForce 是针对 Qwen2-VL (千问视觉-语言模型) 的优化推理系统,通过结合以下技术加速多模态输入(图像/视频)的文本生成:
- 🚀 相比自回归解码 提速3.x倍
- 🖼️ 支持 图像和视频多模态输入
- 💾 提供三种高效缓存机制:
FlashSimpleCache
:基础键值缓存RetrievalCache
:基于层次化稀疏的注意力感知缓存StreamingLLMEvictionCache
:流式场景优化缓存
- 🔍 通过严格验证机制 保持生成质量
conda create -n Qwen-TriForce python=3.9
conda activate Qwen-TriForce
pip install -r requirements.txt
pip install flash-attn --no-build-isolation # install flash-attn
git clone https://github.com/yourusername/Qwen2VL-TriForce.git
cd Qwen2VL-TriForce
python Qwen_TF.py