support frequency penalty #713

RytonLi · 2023-11-20T10:22:48Z

Motivation

support more sampling ways, like presence_penalty(already implemented but never used) and frequency_penalty(supported in vllm).

Modification

I mainly add a kernal function in src/turbomind/kernels/sampling_penalty_kernels.cu, which implemented frequency penalty sampling method. Then enable it by add presence_penalty and frequency_penalty param in src/turbomind/models/llama/LlamaBatch.cc, where I just reuse the buffer h_repetition_penalty_.

support frequency penalty

9790abb

lvhan028 requested review from lzhangzz and grimoire November 29, 2023 10:56

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support frequency penalty #713

support frequency penalty #713

RytonLi commented Nov 20, 2023

support frequency penalty #713

Are you sure you want to change the base?

support frequency penalty #713

Conversation

RytonLi commented Nov 20, 2023

Motivation

Modification