Deprecated functionality

assouktim · assouktim · commit d83b1ffb392b · 2024-10-03T13:30:55.000+02:00
diff --git a/README.md b/README.md
@@ -43,6 +43,11 @@ HUGGING_FACE_HUB_TOKEN="<YOUR HF HUB TOKEN>"
 python -m llm_inference --model "cmarkea/bloomz-3b-retriever-v2" --task EMBEDDING
 ```
 
+The server is designed to run one task at a time. There are three different tasks:
+- EMBEDDING
+- SCORING
+- GUARDRAIL
+
 ### API Endpoints
 
 You can access server documentation through this endpoint : `/docs`
diff --git a/llm_inference/routes/guardrail.py b/llm_inference/routes/guardrail.py
@@ -29,7 +29,7 @@ def inference(request: GuardrailRequest) -> GuardrailResponse:
     try:
         with metrics.BATCH_INFERENCE_TIME.time():
             outputs = ServerPipeline().pipeline(
-                request.text, function_to_apply="sigmoid", return_all_scores=True
+                request.text, function_to_apply="sigmoid", top_k=None
             )
     except Exception as e:
         metrics.REQUEST_FAILURE.inc()
diff --git a/llm_inference/routes/scoring.py b/llm_inference/routes/scoring.py
@@ -34,7 +34,7 @@ def inference(request: ScoringRequest) -> ScoringResponse:
                     for context in request.contexts
                 ],
                 function_to_apply="softmax",
-                return_all_scores=True,
+                top_k=None,
             )
     except Exception as e:
         metrics.REQUEST_FAILURE.inc()

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ def inference(request: GuardrailRequest) -> GuardrailResponse:`
`29`	`29`	`try:`
`30`	`30`	`with metrics.BATCH_INFERENCE_TIME.time():`
`31`	`31`	`outputs = ServerPipeline().pipeline(`
`32`		`- request.text, function_to_apply="sigmoid", return_all_scores=True`
	`32`	`+ request.text, function_to_apply="sigmoid", top_k=None`
`33`	`33`	`)`
`34`	`34`	`except Exception as e:`
`35`	`35`	`metrics.REQUEST_FAILURE.inc()`
Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@ def inference(request: ScoringRequest) -> ScoringResponse:`
`34`	`34`	`for context in request.contexts`
`35`	`35`	`],`
`36`	`36`	`function_to_apply="softmax",`
`37`		`- return_all_scores=True,`
	`37`	`+ top_k=None,`
`38`	`38`	`)`
`39`	`39`	`except Exception as e:`
`40`	`40`	`metrics.REQUEST_FAILURE.inc()`