From 8ec42361c777a67a510600c9aa27beb39cac8976 Mon Sep 17 00:00:00 2001 From: lszxb Date: Thu, 8 Aug 2024 12:52:37 +0800 Subject: [PATCH] Update [WeeklyReport]2024.07.15~2024.07.28.md add details for QServe System --- .../glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md b/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md index c51c35f7..198ee6c2 100644 --- a/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md +++ b/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md @@ -22,6 +22,14 @@ 3. **调研W4A8KV4系统QServe的优化点** + * 该系统主要优化点可以分为两部分:使用W4A8量化与使用KV4量化。其中对于W4A8有以下优点: + * W4A8相比W4A16能利用int8 Tensorcore,在大batch时具有更大的吞吐量 + * W4A8相比W8A8能在更小的batch上达到最大吞吐量 + * 该系统针对W4A8做了以下优化,着重于减少昂贵的cuda core运算,增加tensor core指令占比: + * 权重使用两阶段量化:将权重先用channel-wise量化方法量化到8-bit,再将8-bit量化权重再次量化到4-bit。这样只需进行4-bit到8-bit的反量化即可直接进行tensor core运算,减少了cuda core运算 + * 权重重排:通过对模型权重事先进行重排序,减少指针运算 + * 寄存器级别并行:往32位的寄存器中塞入4个8bit数进行运算,使得一个thread可以同时对4个权重参数进行反量化,减少了cuda core开销 + ### 下周工作