feat: evaluate api #463

Icemap · 2024-12-05T09:06:39Z

Issue: #376

Added Create Evaluate Task API and Called Celery as Background;
Added a New Queue evaluation in the Celery and Changed the Rest Task to Queue default;
Added Evaluate Task List/Summary/Item Detail APIs.
Added Evaluation Dataset List/Create/Delete/Update APIs, a caveat is the CSV file is only can be used in the Create API.
Added Evaluation Dataset Item List/Create/Delete/Update APIs.

vercel · 2024-12-05T09:06:44Z

The latest updates on your projects. Learn more about Vercel for Git ↗︎

Name	Status	Preview	Comments	Updated (UTC)
tidb-ai-preview	✅ Ready (Inspect)	Visit Preview	💬 Add feedback	Dec 11, 2024 1:11pm
tidb-ai-storybook	✅ Ready (Inspect)	Visit Preview	💬 Add feedback	Dec 11, 2024 1:11pm

backend/app/api/admin_routes/evaluation/evaluation_dataset.py

backend/app/api/admin_routes/models.py

backend/app/api/admin_routes/evaluation/evaluation_task.py

backend/app/tasks/evaluate.py

Icemap · 2024-12-11T02:13:02Z

Updated, PTAL again, thanks. @Mini256

backend/app/models/evaluation_task.py

backend/app/tasks/evaluate.py

Mini256 · 2024-12-11T07:37:53Z

backend/app/models/evaluation_task.py

+    factual_correctness: Optional[float] = Field(nullable=True)
+    semantic_similarity: Optional[float] = Field(nullable=True)


I have some concerns about the extensibility of this data model:

How should we handle other evaluation metrics if we have more?

How to handle user-defined metrics?

It may be a bit early to consider, but the costs of table schema migration are relatively high.

langfuse's data model may be of some help with us:
https://langfuse.com/docs/scores/data-model

It is too early to consider. If we need to add another metric, the effort will be way more than adding a field in the table. And before that, we should fix the retrieved_contexts first. For the user-defined custom metrics, we cannot support this version. PTAL of the ragas.metrics package.

I perfered to store the metrics value in another table like:

class EvaluationTaskItemScore(SQLModel, table=true): id: int name: varchar(40) # maybe `factual_correctness`, `semantic_similarity`, `faithfulness` and more ... value: float evaluation_task_item_id: int evaluation_task_id: int

Just a suggestion and reminder for extensibility, the hard code columns way is also ok for me.

cc:@wd0517 @sykp241095 What do you think?

Langfuse supports user-defined metrics, so storing them in a separate table is required. However, we currently only support a limited set of hardcoded metrics, making a dedicated column for these acceptable for now.

backend/app/models/evaluation_dataset.py

wd0517 · 2024-12-11T11:46:12Z

backend/app/tasks/evaluate.py

+        url=settings.TIDB_AI_CHAT_ENDPOINT,
+        headers={
+            "Content-Type": "application/json",
+            "Authorization": f"Bearer {settings.TIDB_AI_API_KEY}",


TIDB_AI_API_KEY is a SecretStr, should use settings.TIDB_AI_API_KEY.get_secret_value()

wd0517 · 2024-12-11T11:53:02Z

backend/app/models/evaluation_task.py

+    factual_correctness: Optional[float] = Field(nullable=True)
+    semantic_similarity: Optional[float] = Field(nullable=True)


Langfuse supports user-defined metrics, so storing them in a separate table is required. However, we currently only support a limited set of hardcoded metrics, making a dedicated column for these acceptable for now.

wd0517 · 2024-12-11T11:54:58Z

Please use rye fmt to format the code.

Icemap · 2024-12-11T13:03:11Z

Sure, but the rye fmt makes a bunch of code files that were updated.

Mini256 · 2024-12-11T13:24:29Z

🤣 maybe we need to add a GitHub Action to run rye fmt --check

Icemap · 2024-12-11T15:41:58Z

🤣 maybe we need to add a GitHub Action to run rye fmt --check

Or a git hook maybe.

github-actions · 2024-12-12T04:09:19Z

E2E Result Deployment

https://tidb-ai-playwright-1ph7osag6-djaggers-projects.vercel.app

feat: evaluate api

b6571d9

feat: change BASE_URL back

8e04063

Icemap requested review from 634750802, Mini256 and wd0517 December 5, 2024 09:13

vercel bot deployed to Preview – tidb-ai-storybook December 5, 2024 09:13 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 5, 2024 09:14 View deployment

wd0517 approved these changes Dec 5, 2024

View reviewed changes

Mini256 added the do-not-merge/hold label Dec 5, 2024

634750802 added this to the Release v0.3.1 milestone Dec 5, 2024

Icemap added 3 commits December 9, 2024 14:34

Merge branch 'main' into feat-eval-api

ce0f212

del: reverse schema change

cb77c06

feat: evaluation dataset api group

2bbda5e

vercel bot deployed to Preview – tidb-ai-storybook December 10, 2024 07:17 View deployment

Icemap removed the do-not-merge/hold label Dec 10, 2024

vercel bot deployed to Preview – tidb-ai-preview December 10, 2024 07:19 View deployment

sykp241095 assigned Mini256 Dec 10, 2024

Mini256 requested changes Dec 10, 2024

View reviewed changes

feat: follow the suggestions from the code review

66c2a37

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 02:14 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 02:15 View deployment

Mini256 reviewed Dec 11, 2024

View reviewed changes

backend/app/models/evaluation_task.py Outdated Show resolved Hide resolved

feat: change the name of evaluation task item

c5d6840

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 06:18 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 06:18 View deployment

Mini256 reviewed Dec 11, 2024

View reviewed changes

backend/app/tasks/evaluate.py Outdated Show resolved Hide resolved

feat: change evaluation apis to plural

9da081a

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 07:37 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 07:37 View deployment

Mini256 reviewed Dec 11, 2024

View reviewed changes

feat: suggestions

2acf841

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 08:00 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 08:01 View deployment

feat: suggestions

91d13a6

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 09:14 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 09:14 View deployment

Mini256 reviewed Dec 11, 2024

View reviewed changes

backend/app/models/evaluation_dataset.py Outdated Show resolved Hide resolved

feat: suggestions

6d183e4

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 09:41 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 09:41 View deployment

wd0517 reviewed Dec 11, 2024

View reviewed changes

feat: format the code

6838c40

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 13:05 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 13:05 View deployment

Merge branch 'main' into feat-eval-api

291e0dc

vercel bot deployed to Preview – tidb-ai-storybook December 11, 2024 13:08 View deployment

vercel bot deployed to Preview – tidb-ai-preview December 11, 2024 13:11 View deployment

634750802 added require-build e2e-frontend:branch-main labels Dec 12, 2024

Mini256 approved these changes Dec 12, 2024

View reviewed changes

sykp241095 merged commit 0cca29d into main Dec 12, 2024
14 checks passed

sykp241095 deleted the feat-eval-api branch December 12, 2024 06:27

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: evaluate api #463

feat: evaluate api #463

Icemap commented Dec 5, 2024 •

edited

Loading

vercel bot commented Dec 5, 2024 •

edited

Loading

Icemap commented Dec 11, 2024

Mini256 Dec 11, 2024 •

edited

Loading

Icemap Dec 11, 2024

Mini256 Dec 11, 2024 •

edited

Loading

wd0517 Dec 11, 2024

wd0517 Dec 11, 2024

wd0517 Dec 11, 2024

wd0517 commented Dec 11, 2024

Icemap commented Dec 11, 2024

Mini256 commented Dec 11, 2024

Icemap commented Dec 11, 2024

github-actions bot commented Dec 12, 2024

		factual_correctness: Optional[float] = Field(nullable=True)
		semantic_similarity: Optional[float] = Field(nullable=True)

feat: evaluate api #463

feat: evaluate api #463

Conversation

Icemap commented Dec 5, 2024 • edited Loading

vercel bot commented Dec 5, 2024 • edited Loading

Icemap commented Dec 11, 2024

Mini256 Dec 11, 2024 • edited Loading

Choose a reason for hiding this comment

Icemap Dec 11, 2024

Choose a reason for hiding this comment

Mini256 Dec 11, 2024 • edited Loading

Choose a reason for hiding this comment

wd0517 Dec 11, 2024

Choose a reason for hiding this comment

wd0517 Dec 11, 2024

Choose a reason for hiding this comment

wd0517 Dec 11, 2024

Choose a reason for hiding this comment

wd0517 commented Dec 11, 2024

Icemap commented Dec 11, 2024

Mini256 commented Dec 11, 2024

Icemap commented Dec 11, 2024

github-actions bot commented Dec 12, 2024

E2E Result Deployment

Icemap commented Dec 5, 2024 •

edited

Loading

vercel bot commented Dec 5, 2024 •

edited

Loading

Mini256 Dec 11, 2024 •

edited

Loading

Mini256 Dec 11, 2024 •

edited

Loading