predibase · ajtejankar · Dec 10, 2024 · Dec 5, 2024 · Dec 10, 2024 · tgaddair
diff --git a/proto/generate.proto b/proto/generate.proto
@@ -249,7 +249,7 @@ message Generation {
     /// Request ID
     uint64 request_id = 1;
     /// Prefill tokens (optional)
-    PrefillTokens prefill_tokens = 2;
+    NextTokens prefill_tokens = 2;
     /// Next tokens
     NextTokens next_tokens = 3;
     /// Complete generated text

diff --git a/router/client/src/lib.rs b/router/client/src/lib.rs
@@ -15,8 +15,7 @@ pub use pb::generate::v1::{
     input_chunk, AdapterParameters, AlternativeTokens, Batch, CachedBatch, ClassifyPredictionList,
     DownloadAdapterResponse, Embedding, Entity, EntityList, FinishReason, GeneratedText,
     Generation, Image, InputChunk, MajoritySignMethod, MergeStrategy, NextTokenChooserParameters,
-    NextTokens, PrefillTokens, PreloadedAdapter, Request, StoppingCriteriaParameters,
-    TokenizedInputs,
+    NextTokens, PreloadedAdapter, Request, StoppingCriteriaParameters, TokenizedInputs,
 };
 pub use sharded_client::ShardedClient;
 use thiserror::Error;

diff --git a/router/src/infer.rs b/router/src/infer.rs
@@ -16,7 +16,7 @@ use itertools::izip;
 use itertools::multizip;
 use lorax_client::{
     Batch, CachedBatch, ClassifyPredictionList, ClientError, Embedding, GeneratedText, Generation,
-    PrefillTokens, PreloadedAdapter, ShardedClient,
+    NextTokens, PreloadedAdapter, ShardedClient,
 };
 use minijinja::{Environment, ErrorKind, Template};
 use minijinja_contrib::pycompat;
@@ -1527,7 +1527,7 @@ fn send_errors(error: ClientError, entries: &mut IntMap<u64, Entry>) {
 pub(crate) enum InferStreamResponse {
     // Optional first message
     Prefill {
-        tokens: Option<PrefillTokens>,
+        tokens: Option<NextTokens>,
         tokens_length: u32,
         prefill_time: Instant,
     },

diff --git a/server/lorax_server/models/types.py b/server/lorax_server/models/types.py
@@ -98,7 +98,7 @@ class NextTokens:
     is_special: List[bool]
     alternative_tokens: Optional[List[AlternativeTokens]]
 
-    def to_pb(self) -> generate_pb2.PrefillTokens:
+    def to_pb(self) -> generate_pb2.NextTokens:
         return generate_pb2.NextTokens(
             ids=self.token_ids,
             logprobs=self.logprobs,
@@ -118,7 +118,7 @@ def __len__(self):
 @dataclass
 class Generation:
     request_id: int
-    prefill_tokens: Optional[PrefillTokens]
+    prefill_tokens: Optional[NextTokens]
     prefill_tokens_length: int
     next_tokens: NextTokens
     generated_text: Optional[GeneratedText]