tomaarsen · tomaarsen · Aug 20, 2024 · Aug 20, 2024 · Aug 23, 2024 · Aug 23, 2024
diff --git a/.github/workflows/tests.yml b/.github/workflows/tests.yml
@@ -22,6 +22,27 @@ jobs:
       fail-fast: false
     runs-on: ${{ matrix.os }}
     steps:
+      - name: Remove unnecessary files
+        run: |
+          df -h /
+          # Remove software and language runtimes we're not using
+          sudo rm -rf \
+            "$AGENT_TOOLSDIRECTORY" \
+            /opt/google/chrome \
+            /opt/microsoft/msedge \
+            /opt/microsoft/powershell \
+            /opt/pipx \
+            /usr/lib/mono \
+            /usr/local/julia* \
+            /usr/local/lib/android \
+            /usr/local/lib/node_modules \
+            /usr/local/share/chromium \
+            /usr/local/share/powershell \
+            /usr/share/dotnet \
+            /usr/share/swift
+          df -h /
+        if: runner.os == 'Linux'
+
       - name: Checkout code
         uses: actions/checkout@v3
 

diff --git a/tests/conftest.py b/tests/conftest.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 
 import os
-import platform
 import tempfile
 
 import pytest
@@ -57,10 +56,8 @@ def cache_dir():
     """
     In the CI environment, we use a temporary directory as `cache_dir`
     to avoid keeping the downloaded models on disk after the test.
-
-    This is only required for Ubuntu, as we otherwise have disk space issues there.
     """
-    if os.environ.get("CI", None) and platform.system() == "Linux":
+    if os.environ.get("CI", None):
         with tempfile.TemporaryDirectory() as tmp_dir:
             yield tmp_dir
     else:

diff --git a/tests/test_pretrained_stsb.py b/tests/test_pretrained_stsb.py
@@ -107,51 +107,33 @@ def test_sentence_t5_slow() -> None:
     pretrained_model_score_slow("sentence-t5-base", 85.52)
 
 
-def test_bert_base(cache_dir) -> None:
-    pretrained_model_score("bert-base-nli-mean-tokens", 86.53, cache_dir=cache_dir)
-    pretrained_model_score("bert-base-nli-max-tokens", 87.00, cache_dir=cache_dir)
-    pretrained_model_score("bert-base-nli-cls-token", 85.93, cache_dir=cache_dir)
-    pretrained_model_score("bert-base-nli-stsb-mean-tokens", 89.26, cache_dir=cache_dir)
-
-
-def test_bert_large(cache_dir) -> None:
-    pretrained_model_score("bert-large-nli-mean-tokens", 90.06, cache_dir=cache_dir)
-    pretrained_model_score("bert-large-nli-max-tokens", 90.15, cache_dir=cache_dir)
-    pretrained_model_score("bert-large-nli-cls-token", 89.51, cache_dir=cache_dir)
-    pretrained_model_score("bert-large-nli-stsb-mean-tokens", 92.27, cache_dir=cache_dir)
-
-
-def test_roberta(cache_dir) -> None:
-    pretrained_model_score("roberta-base-nli-mean-tokens", 87.91, cache_dir=cache_dir)
-    pretrained_model_score("roberta-large-nli-mean-tokens", 89.41, cache_dir=cache_dir)
-    pretrained_model_score("roberta-base-nli-stsb-mean-tokens", 93.39, cache_dir=cache_dir)
-    pretrained_model_score("roberta-large-nli-stsb-mean-tokens", 91.26, cache_dir=cache_dir)
-
-
-def test_distilbert(cache_dir) -> None:
-    pretrained_model_score("distilbert-base-nli-mean-tokens", 88.83, cache_dir=cache_dir)
-    pretrained_model_score("distilbert-base-nli-stsb-mean-tokens", 91.01, cache_dir=cache_dir)
-    pretrained_model_score("paraphrase-distilroberta-base-v1", 90.89, cache_dir=cache_dir)
-
-
-def test_multiling(cache_dir) -> None:
-    pretrained_model_score("distiluse-base-multilingual-cased", 88.79, cache_dir=cache_dir)
-    pretrained_model_score("paraphrase-xlm-r-multilingual-v1", 92.76, cache_dir=cache_dir)
-    pretrained_model_score("paraphrase-multilingual-MiniLM-L12-v2", 92.64, cache_dir=cache_dir)
-
-
-def test_mpnet(cache_dir) -> None:
-    pretrained_model_score("paraphrase-mpnet-base-v2", 92.83, cache_dir=cache_dir)
-
-
-def test_other_models(cache_dir) -> None:
-    pretrained_model_score("average_word_embeddings_komninos", 68.97, cache_dir=cache_dir)
-
-
-def test_msmarco(cache_dir) -> None:
-    pretrained_model_score("msmarco-roberta-base-ance-firstp", 83.61, cache_dir=cache_dir)
-    pretrained_model_score("msmarco-distilbert-base-v3", 87.96, cache_dir=cache_dir)
-
-
-def test_sentence_t5(cache_dir) -> None:
-    pretrained_model_score("sentence-t5-base", 92.75, cache_dir=cache_dir)
+@pytest.mark.parametrize(
+    ["model_name", "expected_score"],
+    [
+        ("bert-base-nli-mean-tokens", 86.53),
+        ("bert-base-nli-max-tokens", 87.00),
+        ("bert-base-nli-cls-token", 85.93),
+        ("bert-base-nli-stsb-mean-tokens", 89.26),
+        ("bert-large-nli-mean-tokens", 90.06),
+        ("bert-large-nli-max-tokens", 90.15),
+        ("bert-large-nli-cls-token", 89.51),
+        ("bert-large-nli-stsb-mean-tokens", 92.27),
+        ("roberta-base-nli-mean-tokens", 87.91),
+        ("roberta-large-nli-mean-tokens", 89.41),
+        ("roberta-base-nli-stsb-mean-tokens", 93.39),
+        ("roberta-large-nli-stsb-mean-tokens", 91.26),
+        ("distilbert-base-nli-mean-tokens", 88.83),
+        ("distilbert-base-nli-stsb-mean-tokens", 91.01),
+        ("paraphrase-distilroberta-base-v1", 90.89),
+        ("distiluse-base-multilingual-cased", 88.79),
+        ("paraphrase-xlm-r-multilingual-v1", 92.76),
+        ("paraphrase-multilingual-MiniLM-L12-v2", 92.64),
+        ("paraphrase-mpnet-base-v2", 92.83),
+        ("average_word_embeddings_komninos", 68.97),
+        ("msmarco-roberta-base-ance-firstp", 83.61),
+        ("msmarco-distilbert-base-v3", 87.96),
+        ("sentence-t5-base", 92.75),
+    ],
+)
+def test_pretrained(model_name: str, expected_score: float, cache_dir: str | None = None) -> None:
+    pretrained_model_score(model_name, expected_score, cache_dir=cache_dir)