From 8ec42361c777a67a510600c9aa27beb39cac8976 Mon Sep 17 00:00:00 2001
From: lszxb <liusz@smail.nju.edu.cn>
Date: Thu, 8 Aug 2024 12:52:37 +0800
Subject: [PATCH] Update [WeeklyReport]2024.07.15~2024.07.28.md

add details for QServe System
---
 .../glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md  | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md b/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md
index c51c35f7..198ee6c2 100644
--- a/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md
+++ b/WeeklyReports/Hackathon_7th/glcc_02_lszxb/[WeeklyReport]2024.07.15~2024.07.28.md
@@ -22,6 +22,14 @@
 
 3. **调研W4A8KV4系统QServe的优化点**
 
+	* 该系统主要优化点可以分为两部分：使用W4A8量化与使用KV4量化。其中对于W4A8有以下优点：
+		* W4A8相比W4A16能利用int8 Tensorcore，在大batch时具有更大的吞吐量
+		* W4A8相比W8A8能在更小的batch上达到最大吞吐量
+	* 该系统针对W4A8做了以下优化，着重于减少昂贵的cuda core运算，增加tensor core指令占比：
+		* 权重使用两阶段量化：将权重先用channel-wise量化方法量化到8-bit，再将8-bit量化权重再次量化到4-bit。这样只需进行4-bit到8-bit的反量化即可直接进行tensor core运算，减少了cuda core运算
+		* 权重重排：通过对模型权重事先进行重排序，减少指针运算
+		* 寄存器级别并行：往32位的寄存器中塞入4个8bit数进行运算，使得一个thread可以同时对4个权重参数进行反量化，减少了cuda core开销
+
 
 ### 下周工作