Merge pull request #3 from CreditMutuelArkea/fixes_doc_update

killian-mahe · web-flow · commit 8c431fbafdcd · 2024-11-21T11:51:55.000+01:00
🔧 Run configuration for PyCharm
diff --git a/.run/llm_inference - EMBEDDING.run.xml b/.run/llm_inference - EMBEDDING.run.xml
@@ -0,0 +1,36 @@
+<component name="ProjectRunConfigurationManager">
+  <configuration default="false" name="llm_inference - EMBEDDING" type="PythonConfigurationType" factoryName="Python">
+    <module name="llm-inference" />
+    <option name="INTERPRETER_OPTIONS" value="" />
+    <option name="PARENT_ENVS" value="true" />
+    <envs>
+      <env name="PYTHONUNBUFFERED" value="1" />
+    </envs>
+    <option name="SDK_HOME" value="$PROJECT_DIR$/venv/bin/python" />
+    <option name="SDK_NAME" value="Python 3.9 (llm-inference)" />
+    <option name="WORKING_DIRECTORY" value="" />
+    <option name="IS_MODULE_SDK" value="false" />
+    <option name="ADD_CONTENT_ROOTS" value="true" />
+    <option name="ADD_SOURCE_ROOTS" value="true" />
+    <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+    <EXTENSION ID="net.ashald.envfile">
+      <option name="IS_ENABLED" value="true" />
+      <option name="IS_SUBST" value="false" />
+      <option name="IS_PATH_MACRO_SUPPORTED" value="false" />
+      <option name="IS_IGNORE_MISSING_FILES" value="false" />
+      <option name="IS_ENABLE_EXPERIMENTAL_INTEGRATIONS" value="false" />
+      <ENTRIES>
+        <ENTRY IS_ENABLED="true" PARSER="runconfig" IS_EXECUTABLE="false" />
+        <ENTRY IS_ENABLED="true" PARSER="env" IS_EXECUTABLE="false" PATH=".env" />
+      </ENTRIES>
+    </EXTENSION>
+    <option name="SCRIPT_NAME" value="llm_inference" />
+    <option name="PARAMETERS" value="--task EMBEDDING --port 8081 --model cmarkea/bloomz-560m-retriever-v2" />
+    <option name="SHOW_COMMAND_LINE" value="false" />
+    <option name="EMULATE_TERMINAL" value="false" />
+    <option name="MODULE_MODE" value="true" />
+    <option name="REDIRECT_INPUT" value="false" />
+    <option name="INPUT_FILE" value="" />
+    <method v="2" />
+  </configuration>
+</component>
diff --git a/.run/llm_inference - GUARDRAIL.run.xml b/.run/llm_inference - GUARDRAIL.run.xml
@@ -0,0 +1,36 @@
+<component name="ProjectRunConfigurationManager">
+  <configuration default="false" name="llm_inference - GUARDRAIL" type="PythonConfigurationType" factoryName="Python">
+    <module name="llm-inference" />
+    <option name="INTERPRETER_OPTIONS" value="" />
+    <option name="PARENT_ENVS" value="true" />
+    <envs>
+      <env name="PYTHONUNBUFFERED" value="1" />
+    </envs>
+    <option name="SDK_HOME" value="$PROJECT_DIR$/venv/bin/python" />
+    <option name="SDK_NAME" value="Python 3.9 (llm-inference)" />
+    <option name="WORKING_DIRECTORY" value="" />
+    <option name="IS_MODULE_SDK" value="false" />
+    <option name="ADD_CONTENT_ROOTS" value="true" />
+    <option name="ADD_SOURCE_ROOTS" value="true" />
+    <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+    <EXTENSION ID="net.ashald.envfile">
+      <option name="IS_ENABLED" value="true" />
+      <option name="IS_SUBST" value="false" />
+      <option name="IS_PATH_MACRO_SUPPORTED" value="false" />
+      <option name="IS_IGNORE_MISSING_FILES" value="false" />
+      <option name="IS_ENABLE_EXPERIMENTAL_INTEGRATIONS" value="false" />
+      <ENTRIES>
+        <ENTRY IS_ENABLED="true" PARSER="runconfig" IS_EXECUTABLE="false" />
+        <ENTRY IS_ENABLED="true" PARSER="env" IS_EXECUTABLE="false" PATH=".env" />
+      </ENTRIES>
+    </EXTENSION>
+    <option name="SCRIPT_NAME" value="llm_inference" />
+    <option name="PARAMETERS" value="--task GUARDRAIL --port 8083 --model cmarkea/bloomz-560m-guardrail" />
+    <option name="SHOW_COMMAND_LINE" value="false" />
+    <option name="EMULATE_TERMINAL" value="false" />
+    <option name="MODULE_MODE" value="true" />
+    <option name="REDIRECT_INPUT" value="false" />
+    <option name="INPUT_FILE" value="" />
+    <method v="2" />
+  </configuration>
+</component>
diff --git a/.run/llm_inference - SCORING.run.xml b/.run/llm_inference - SCORING.run.xml
@@ -0,0 +1,36 @@
+<component name="ProjectRunConfigurationManager">
+  <configuration default="false" name="llm_inference - SCORING" type="PythonConfigurationType" factoryName="Python">
+    <module name="llm-inference" />
+    <option name="INTERPRETER_OPTIONS" value="" />
+    <option name="PARENT_ENVS" value="true" />
+    <envs>
+      <env name="PYTHONUNBUFFERED" value="1" />
+    </envs>
+    <option name="SDK_HOME" value="$PROJECT_DIR$/venv/bin/python" />
+    <option name="SDK_NAME" value="Python 3.9 (llm-inference)" />
+    <option name="WORKING_DIRECTORY" value="" />
+    <option name="IS_MODULE_SDK" value="false" />
+    <option name="ADD_CONTENT_ROOTS" value="true" />
+    <option name="ADD_SOURCE_ROOTS" value="true" />
+    <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+    <EXTENSION ID="net.ashald.envfile">
+      <option name="IS_ENABLED" value="true" />
+      <option name="IS_SUBST" value="false" />
+      <option name="IS_PATH_MACRO_SUPPORTED" value="false" />
+      <option name="IS_IGNORE_MISSING_FILES" value="false" />
+      <option name="IS_ENABLE_EXPERIMENTAL_INTEGRATIONS" value="false" />
+      <ENTRIES>
+        <ENTRY IS_ENABLED="true" PARSER="runconfig" IS_EXECUTABLE="false" />
+        <ENTRY IS_ENABLED="true" PARSER="env" IS_EXECUTABLE="false" PATH=".env" />
+      </ENTRIES>
+    </EXTENSION>
+    <option name="SCRIPT_NAME" value="llm_inference" />
+    <option name="PARAMETERS" value="--task SCORING --port 8082 --model cmarkea/bloomz-560m-reranking" />
+    <option name="SHOW_COMMAND_LINE" value="false" />
+    <option name="EMULATE_TERMINAL" value="false" />
+    <option name="MODULE_MODE" value="true" />
+    <option name="REDIRECT_INPUT" value="false" />
+    <option name="INPUT_FILE" value="" />
+    <method v="2" />
+  </configuration>
+</component>
diff --git a/README.md b/README.md
@@ -39,14 +39,40 @@ HUGGING_FACE_HUB_TOKEN="<YOUR HF HUB TOKEN>"
 
 ### Running the Server
 
+For each kind of task goes a specific model here are some models based on bloomz architecture, Open Sourced that you
+could use you will find the latest model on [Credit Mutuel Arkea's hugginface ODQA collection](https://huggingface.co/collections/cmarkea/odqa-65f56ecd2b3e8e993a9982d6).
+
+If you are using PyCharm find run configuration in `.run/**.yaml` they should appear direcly in PyCharm, those configurations uses the samllest models.
+
+#### Embedding server
+Use to vectorise documents search for `*-retriever` [models](https://huggingface.co/collections/cmarkea/odqa-65f56ecd2b3e8e993a9982d6), then start the inference server like this (smallest model) :
+```bash
+python -m llm_inference --task EMBEDDING --port 8081 --model cmarkea/bloomz-560m-retriever-v2
+```
+
+Then go to http://localhost:8081/docs.
+
+#### Reranking / Scoring server
+Use to rank severeal context according to a specific query, search for `*-reranking` [models](https://huggingface.co/collections/cmarkea/odqa-65f56ecd2b3e8e993a9982d6), then start the inference server like this (smallest model) :
 ```bash
-python -m llm_inference --model "cmarkea/bloomz-3b-retriever-v2" --task EMBEDDING
+python -m llm_inference --task SCORING --port 8082 --model cmarkea/bloomz-560m-reranking
 ```
 
-The server is designed to run one task at a time. There are three different tasks:
-- EMBEDDING
-- SCORING
-- GUARDRAIL
+Then go to http://localhost:8082/docs.
+
+Be aware to check the examples in the model card depending on the model you use to understand the meaning of the output labels.
+For instance for [**cmarkea/bloomz-560m-reranking**](https://huggingface.co/cmarkea/bloomz-560m-reranking), `LABEL1`
+near to 1 means that the context in really similar to the query, as [described in the model card](https://huggingface.co/cmarkea/bloomz-560m-reranking#:~:text=context%20in%20contexts%0A%20%20%20%20%5D%0A)-,contexts_reranked,-%3D%20sorted().
+
+#### Guardrail
+
+Use to detect responses that would be toxic for instance : insult, obscene, sexual_explicit, identity_attack...
+Our guardrail models are published under  `*-guardrail` [models](https://huggingface.co/collections/cmarkea/odqa-65f56ecd2b3e8e993a9982d6)
+
+```bash
+python -m llm_inference --task GUARDRAIL --port 8083 --model cmarkea/bloomz-560m-guardrail
+```
+Then go to http://localhost:8083/docs.
 
 ### API Endpoints
 
@@ -78,9 +104,9 @@ This project is licensed under the MIT License. See the [LICENSE](LICENSE) file
 
 ## Acknowledgments
 
-- [Bloomz](https://bloomz.ai) for providing the pre-trained models.
-- [Your Organization](https://yourorganization.com) for supporting this project.
+- [BigScience](https://bigscience.huggingface.co/) for providing the pre-trained models.
+- [Crédit Mutuel Arkéa](https://www.cm-arkea.com/) for supporting this project.
 
 ## Contact
 
-For any inquiries or support, please contact [your email](mailto:youremail@example.com).
+For any inquiries or support, open an issue on this repository.
diff --git a/llm_inference/routes/embedding.py b/llm_inference/routes/embedding.py
@@ -6,7 +6,7 @@
 
 from llm_inference import metrics
 from llm_inference.model import ServerPipeline
-from llm_inference.routes.models import EmbeddingResponse, EmbeddingRequest
+from llm_inference.routes.models import EmbeddingResponse, EmbeddingRequest, EmbeddingPooling
 
 router = APIRouter(tags=["Embedding"])
 logger = logging.getLogger(__name__)
@@ -28,9 +28,9 @@ def inference(request: EmbeddingRequest):
             outputs = ServerPipeline().pipeline(request.text)
 
         for i in range(len(outputs)):
-            if request.pooling == "mean":
+            if request.pooling == EmbeddingPooling.MEAN:
                 outputs[i] = np.mean(outputs[i][0], axis=0).tolist()
-            elif request.pooling == "last":
+            elif request.pooling == EmbeddingPooling.LAST:
                 outputs[i] = outputs[i][0][-1]
             else:
                 return Response("Unsupported pooling method.", status_code=400)
diff --git a/llm_inference/routes/models.py b/llm_inference/routes/models.py
@@ -1,4 +1,5 @@
 import logging
+from enum import Enum
 from typing import List
 
 from pydantic import BaseModel
@@ -19,9 +20,15 @@ class ClassificationItem(BaseModel):
 class ScoringRequest(BaseModel):
     contexts: List[ScoringItem]
 
+
+class EmbeddingPooling(str, Enum):
+    MEAN = "mean"
+    LAST = "last"
+
+
 class EmbeddingRequest(BaseModel):
     text: List[str]
-    pooling: str
+    pooling: EmbeddingPooling
 
 
 class GuardrailRequest(BaseModel):