pandas.errors.ParserError: Error tokenizing data. C error: Expected 7 fields in line 2658, saw 8 #2

momozzing · 2021-10-31T07:40:15Z

간단하게 데이터를 불러와서 사용하려고 했는데 오류가 발생합니다

data = pd.read_csv("KorSTS/sts-train.tsv", delimiter="\t")

pandas.errors.ParserError: Error tokenizing data. C error: Expected 7 fields in line 2658, saw 8

data = pd.read_csv("KorSTS/sts-train.tsv", delimiter="\t",error_bad_lines=False)

error_bad_lines 를 붙여 사용하니 train data 5750 개중에 5696개만 출력됩니다.

dev도 1500개중 1466개만 출력이 됩니다. test는 오류가 없습니다.

중간에 \t 말고 띄어쓰기가 들어간것 같습니다. (오류난 라인 들어가서 변경해보니 오류가 제거됬습니다)

dalgarak mentioned this issue Jan 18, 2023

Fix double quotation mark(") in each column for Pandas csv parser compatibility. #8

Open

Provide feedback