Add workflow to run evaluation on a subset of datasets #19

	# Evaluates Chronos-Bolt (Small) model on selected datasets
	name: Evaluate

	on:
	# Runs only with read privilages for the GITHUB_TOKEN
	pull_request:
	branches: ["main"] # Run on PRs to main branch

	jobs:
	evaluate-and-post:
	if: contains(github.event.pull_request.labels.*.name, 'run-eval') # Only run if 'run-eval' label is added
	runs-on: ubuntu-latest

	steps:
	- name: Checkout Repository
	uses: actions/checkout@v4

	- name: Set up Python
	uses: actions/setup-python@v5
	with:
	python-version: '3.11'

	- name: Install Dependencies
	run: pip install ".[evaluation]" -f https://download.pytorch.org/whl/cpu/torch_stable.html

	- name: Run Eval Script
	run: python scripts/evaluation/evaluate.py ci/evaluate/backtest_config.yaml eval-ci-metrics.csv --chronos-model-id=amazon/chronos-bolt-small --device=cpu --torch-dtype=float32

	- name: Upload CSV
	uses: actions/upload-artifact@v4
	with:
	name: eval-metrics
	path: eval-ci-metrics.csv
	retention-days: 1
	overwrite: true

Provide feedback