change package name to 'evaluation' and add llama-index-readers-file …

…to fix bug on pytest (#516) Co-authored-by: jeffrey <[email protected]>
Marker-Inc-Korea · Jun 22, 2024 · 0964abb · 0964abb
1 parent a51344d
commit 0964abb
Show file tree

Hide file tree

Showing 30 changed files with 29 additions and 25 deletions.
diff --git a/autorag/evaluate/__init__.py → autorag/evaluation/__init__.py b/autorag/evaluate/__init__.py → autorag/evaluation/__init__.py
diff --git a/autorag/evaluate/generation.py → autorag/evaluation/generation.py b/autorag/evaluate/generation.py → autorag/evaluation/generation.py
@@ -4,8 +4,8 @@
 
 import pandas as pd
 
-from autorag.evaluate.metric.generation import bleu, meteor, rouge, sem_score, g_eval, bert_score
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation.metric.generation import bleu, meteor, rouge, sem_score, g_eval, bert_score
+from autorag.evaluation.util import cast_metrics
 
 GENERATION_METRIC_FUNC_DICT = {func.__name__: func for func in
                                [bleu, meteor, rouge, sem_score, g_eval, bert_score]}

diff --git a/autorag/evaluate/metric/__init__.py → autorag/evaluation/metric/__init__.py b/autorag/evaluate/metric/__init__.py → autorag/evaluation/metric/__init__.py
diff --git a/...te/metric/g_eval_prompts/coh_detailed.txt → ...on/metric/g_eval_prompts/coh_detailed.txt b/...te/metric/g_eval_prompts/coh_detailed.txt → ...on/metric/g_eval_prompts/coh_detailed.txt
diff --git a/...te/metric/g_eval_prompts/con_detailed.txt → ...on/metric/g_eval_prompts/con_detailed.txt b/...te/metric/g_eval_prompts/con_detailed.txt → ...on/metric/g_eval_prompts/con_detailed.txt
diff --git a/...te/metric/g_eval_prompts/flu_detailed.txt → ...on/metric/g_eval_prompts/flu_detailed.txt b/...te/metric/g_eval_prompts/flu_detailed.txt → ...on/metric/g_eval_prompts/flu_detailed.txt
diff --git a/...te/metric/g_eval_prompts/rel_detailed.txt → ...on/metric/g_eval_prompts/rel_detailed.txt b/...te/metric/g_eval_prompts/rel_detailed.txt → ...on/metric/g_eval_prompts/rel_detailed.txt
diff --git a/autorag/evaluate/metric/generation.py → autorag/evaluation/metric/generation.py b/autorag/evaluate/metric/generation.py → autorag/evaluation/metric/generation.py
@@ -15,7 +15,7 @@
 from rouge_score.rouge_scorer import RougeScorer
 
 from autorag import embedding_models
-from autorag.evaluate.metric.util import calculate_cosine_similarity
+from autorag.evaluation.metric.util import calculate_cosine_similarity
 from autorag.utils.util import process_batch, openai_truncate_by_token
 
 

diff --git a/autorag/evaluate/metric/retrieval.py → autorag/evaluation/metric/retrieval.py b/autorag/evaluate/metric/retrieval.py → autorag/evaluation/metric/retrieval.py
diff --git a/...rag/evaluate/metric/retrieval_contents.py → ...g/evaluation/metric/retrieval_contents.py b/...rag/evaluate/metric/retrieval_contents.py → ...g/evaluation/metric/retrieval_contents.py
diff --git a/autorag/evaluate/metric/util.py → autorag/evaluation/metric/util.py b/autorag/evaluate/metric/util.py → autorag/evaluation/metric/util.py
diff --git a/autorag/evaluate/retrieval.py → autorag/evaluation/retrieval.py b/autorag/evaluate/retrieval.py → autorag/evaluation/retrieval.py
@@ -4,9 +4,10 @@
 
 import pandas as pd
 
-from autorag.evaluate.metric import (retrieval_recall, retrieval_precision, retrieval_f1, retrieval_ndcg, retrieval_mrr,
-                                     retrieval_map)
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation.metric import (retrieval_recall, retrieval_precision, retrieval_f1, retrieval_ndcg,
+                                       retrieval_mrr,
+                                       retrieval_map)
+from autorag.evaluation.util import cast_metrics
 
 RETRIEVAL_METRIC_FUNC_DICT = {func.__name__: func for func in
                               [retrieval_recall, retrieval_precision, retrieval_f1, retrieval_ndcg, retrieval_mrr,

diff --git a/autorag/evaluate/retrieval_contents.py → autorag/evaluation/retrieval_contents.py b/autorag/evaluate/retrieval_contents.py → autorag/evaluation/retrieval_contents.py
@@ -3,7 +3,7 @@
 
 import pandas as pd
 
-from autorag.evaluate.metric import retrieval_token_f1, retrieval_token_precision, retrieval_token_recall
+from autorag.evaluation.metric import retrieval_token_f1, retrieval_token_precision, retrieval_token_recall
 
 
 def evaluate_retrieval_contents(retrieval_gt: List[List[str]], metrics: List[str]):

diff --git a/autorag/evaluate/util.py → autorag/evaluation/util.py b/autorag/evaluate/util.py → autorag/evaluation/util.py
diff --git a/autorag/nodes/generator/run.py b/autorag/nodes/generator/run.py
@@ -4,8 +4,8 @@
 
 import pandas as pd
 
-from autorag.evaluate import evaluate_generation
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation import evaluate_generation
+from autorag.evaluation.util import cast_metrics
 from autorag.strategy import measure_speed, filter_by_threshold, select_best
 
 

diff --git a/autorag/nodes/passageaugmenter/base.py b/autorag/nodes/passageaugmenter/base.py
@@ -10,7 +10,7 @@
 import torch
 
 from autorag import embedding_models
-from autorag.evaluate.metric.util import calculate_cosine_similarity
+from autorag.evaluation.metric.util import calculate_cosine_similarity
 from autorag.utils import (result_to_dataframe, validate_qa_dataset, fetch_contents, sort_by_scores,
                            validate_corpus_dataset, cast_corpus_dataset)
 from autorag.utils.util import reconstruct_list, filter_dict_keys, select_top_k

diff --git a/autorag/nodes/passagecompressor/run.py b/autorag/nodes/passagecompressor/run.py
@@ -5,7 +5,7 @@
 
 import pandas as pd
 
-from autorag.evaluate.metric import retrieval_token_recall, retrieval_token_precision, retrieval_token_f1
+from autorag.evaluation.metric import retrieval_token_recall, retrieval_token_precision, retrieval_token_f1
 from autorag.strategy import measure_speed, filter_by_threshold, select_best
 from autorag.utils.util import fetch_contents
 

diff --git a/autorag/nodes/passagefilter/similarity_percentile_cutoff.py b/autorag/nodes/passagefilter/similarity_percentile_cutoff.py
@@ -3,7 +3,7 @@
 import numpy as np
 import torch.cuda
 
-from autorag.evaluate.metric.util import calculate_cosine_similarity
+from autorag.evaluation.metric.util import calculate_cosine_similarity
 from autorag.nodes.passagefilter.base import passage_filter_node
 from autorag.nodes.passagefilter.similarity_threshold_cutoff import embedding_query_content
 

diff --git a/autorag/nodes/passagefilter/similarity_threshold_cutoff.py b/autorag/nodes/passagefilter/similarity_threshold_cutoff.py
@@ -5,7 +5,7 @@
 import torch.cuda
 
 from autorag import embedding_models
-from autorag.evaluate.metric.util import calculate_cosine_similarity
+from autorag.evaluation.metric.util import calculate_cosine_similarity
 from autorag.nodes.passagefilter.base import passage_filter_node
 from autorag.utils.util import reconstruct_list
 

diff --git a/autorag/nodes/promptmaker/run.py b/autorag/nodes/promptmaker/run.py
@@ -6,8 +6,8 @@
 import pandas as pd
 import tokenlog
 
-from autorag.evaluate import evaluate_generation
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation import evaluate_generation
+from autorag.evaluation.util import cast_metrics
 from autorag.strategy import measure_speed, filter_by_threshold, select_best
 from autorag.support import get_support_modules
 from autorag.utils import validate_qa_dataset

diff --git a/autorag/nodes/retrieval/run.py b/autorag/nodes/retrieval/run.py
@@ -5,7 +5,7 @@
 
 import pandas as pd
 
-from autorag.evaluate import evaluate_retrieval
+from autorag.evaluation import evaluate_retrieval
 from autorag.strategy import measure_speed, filter_by_threshold, select_best
 from autorag.utils.util import load_summary_file
 

diff --git a/requirements.txt b/requirements.txt
@@ -34,6 +34,8 @@ llmlingua # for longllmlingua
 ### LlamaIndex ###
 llama-index>=0.10.1
 llama-index-core>=0.10.1
+# readers
+llama-index-readers-file
 # Embeddings
 llama-index-embeddings-openai
 llama-index-embeddings-huggingface

diff --git a/tests/autorag/evaluate/metric/test_generation_metric.py b/tests/autorag/evaluate/metric/test_generation_metric.py
@@ -1,7 +1,7 @@
 import pytest
 from llama_index.embeddings.openai import OpenAIEmbedding
 
-from autorag.evaluate.metric import bleu, meteor, rouge, sem_score, g_eval, bert_score
+from autorag.evaluation.metric import bleu, meteor, rouge, sem_score, g_eval, bert_score
 from tests.delete_tests import is_github_action
 
 generation_gts = [

diff --git a/tests/autorag/evaluate/metric/test_retrieval_contents_metric.py b/tests/autorag/evaluate/metric/test_retrieval_contents_metric.py
@@ -1,6 +1,6 @@
 import pytest
 
-from autorag.evaluate.metric.retrieval_contents import single_token_f1, retrieval_token_f1, retrieval_token_precision, \
+from autorag.evaluation.metric.retrieval_contents import single_token_f1, retrieval_token_f1, retrieval_token_precision, \
     retrieval_token_recall
 
 gt = [

diff --git a/tests/autorag/evaluate/metric/test_retrieval_metric.py b/tests/autorag/evaluate/metric/test_retrieval_metric.py
@@ -1,7 +1,8 @@
 import pytest
 
-from autorag.evaluate.metric import (retrieval_f1, retrieval_precision, retrieval_recall, retrieval_ndcg, retrieval_mrr,
-                                     retrieval_map)
+from autorag.evaluation.metric import (retrieval_f1, retrieval_precision, retrieval_recall, retrieval_ndcg,
+                                       retrieval_mrr,
+                                       retrieval_map)
 
 retrieval_gt = [
     [['test-1', 'test-2'], ['test-3']],

diff --git a/tests/autorag/evaluate/test_evaluate_util.py b/tests/autorag/evaluate/test_evaluate_util.py
@@ -1,5 +1,5 @@
 from autorag import embedding_models
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation.util import cast_metrics
 
 
 def test_cast_metrics():

diff --git a/tests/autorag/evaluate/test_generation_evaluate.py b/tests/autorag/evaluate/test_generation_evaluate.py
@@ -9,7 +9,7 @@
 from openai.types.chat.chat_completion_token_logprob import TopLogprob
 from transformers import AutoTokenizer
 
-from autorag.evaluate.generation import evaluate_generation
+from autorag.evaluation.generation import evaluate_generation
 
 generation_gts = [
     ['The dog had bit the man.', 'The man had bitten the dog.'],

diff --git a/tests/autorag/evaluate/test_retrieval_contents_evaluate.py b/tests/autorag/evaluate/test_retrieval_contents_evaluate.py
@@ -3,7 +3,7 @@
 import pandas as pd
 import pytest
 
-from autorag.evaluate import evaluate_retrieval_contents
+from autorag.evaluation import evaluate_retrieval_contents
 
 gt = [
     ['Enough for drinking water', 'Just looking for a water bottle'],

diff --git a/tests/autorag/evaluate/test_retrieval_evaluate.py b/tests/autorag/evaluate/test_retrieval_evaluate.py
@@ -3,7 +3,7 @@
 
 import pandas as pd
 
-from autorag.evaluate import evaluate_retrieval
+from autorag.evaluation import evaluate_retrieval
 
 retrieval_gt = [[[f'test{i}-{j}'] for i in range(2)] for j in range(4)]
 queries_example = ["Query 1", "Query 2", "Query 3", "Query 4"]

diff --git a/tests/autorag/nodes/promptmaker/test_prompt_maker_run.py b/tests/autorag/nodes/promptmaker/test_prompt_maker_run.py
@@ -9,7 +9,7 @@
 from llama_index.llms.openai import OpenAI
 
 from autorag import generator_models
-from autorag.evaluate.util import cast_metrics
+from autorag.evaluation.util import cast_metrics
 from autorag.nodes.generator import llama_index_llm
 from autorag.nodes.promptmaker import fstring
 from autorag.nodes.promptmaker.run import evaluate_generator_result, evaluate_one_prompt_maker_node, \