数据集相关问题 #42

liuchunming2 · 2024-12-30T11:59:38Z

请问您提供的训练集和测试集是否有原始的PDF原件，能否提供一下？

liuchunming2 · 2024-12-30T14:29:30Z

请问您的测试集在哪呢，我在huggingface上面看见了openbmb/VisRAG-Ret-Test-ArxivQA，但是为什么是parquet的格式呢，您提供的
from datasets import load_dataset
import csv

def load_beir_qrels(qrels_file):
qrels = {}
with open(qrels_file) as f:
tsvreader = csv.DictReader(f, delimiter="\t")
for row in tsvreader:
qid = row["query-id"]
pid = row["corpus-id"]
rel = int(row["score"])
if qid in qrels:
qrels[qid][pid] = rel
else:
qrels[qid] = {pid: rel}
return qrels

corpus_ds = load_dataset("openbmb/VisRAG-Ret-Test-ArxivQA", name="corpus", split="train")
queries_ds = load_dataset("openbmb/VisRAG-Ret-Test-ArxivQA", name="queries", split="train")

qrels_path = "xxxx" # path to qrels file which can be found under qrels folder in the repo.
qrels = load_beir_qrels(qrels_path)
这个代码是下载数据集的吗？请您详细解释一下，谢谢

Yu-Shi · 2024-12-30T19:44:33Z

每个测试集分三个部分：corpus（文档），queries（查询），以及qrels，即查询和文档之间的相关关系。通过示例代码可以访问这三部分

tcy6 · 2025-01-11T14:59:52Z

请问您提供的训练集和测试集是否有原始的PDF原件，能否提供一下？

实在抱歉，我们在生成训练和测试数据的过程中并没有保存PDF原件～

tcy6 closed this as completed Jan 11, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据集相关问题 #42

数据集相关问题 #42

liuchunming2 commented Dec 30, 2024 •

edited

Loading

liuchunming2 commented Dec 30, 2024

Yu-Shi commented Dec 30, 2024

tcy6 commented Jan 11, 2025

数据集相关问题 #42

数据集相关问题 #42

Comments

liuchunming2 commented Dec 30, 2024 • edited Loading

liuchunming2 commented Dec 30, 2024

Yu-Shi commented Dec 30, 2024

tcy6 commented Jan 11, 2025

liuchunming2 commented Dec 30, 2024 •

edited

Loading