Skip to content

Commit

Permalink
Update [WeeklyReport]2024.07.15~2024.07.28.md
Browse files Browse the repository at this point in the history
add details for QServe System
  • Loading branch information
lszxb authored Aug 8, 2024
1 parent 4dbc0f7 commit 8ec4236
Showing 1 changed file with 8 additions and 0 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -22,6 +22,14 @@

3. **调研W4A8KV4系统QServe的优化点**

* 该系统主要优化点可以分为两部分:使用W4A8量化与使用KV4量化。其中对于W4A8有以下优点:
* W4A8相比W4A16能利用int8 Tensorcore,在大batch时具有更大的吞吐量
* W4A8相比W8A8能在更小的batch上达到最大吞吐量
* 该系统针对W4A8做了以下优化,着重于减少昂贵的cuda core运算,增加tensor core指令占比:
* 权重使用两阶段量化:将权重先用channel-wise量化方法量化到8-bit,再将8-bit量化权重再次量化到4-bit。这样只需进行4-bit到8-bit的反量化即可直接进行tensor core运算,减少了cuda core运算
* 权重重排:通过对模型权重事先进行重排序,减少指针运算
* 寄存器级别并行:往32位的寄存器中塞入4个8bit数进行运算,使得一个thread可以同时对4个权重参数进行反量化,减少了cuda core开销


### 下周工作

Expand Down

0 comments on commit 8ec4236

Please sign in to comment.