Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

multinli.train.ko.tsv, xnli.dev.ko.tsv, xnli.test.ko.tsv 에서 스페이스로 구분된 행이 있습니다. #4

Open
oikosohn opened this issue Feb 1, 2022 · 0 comments

Comments

@oikosohn
Copy link

oikosohn commented Feb 1, 2022

multinli.train.ko.tsv

ParserError: Error tokenizing data. C error: Expected 3 fields in line 24426, saw 4

multinli.train.ko.tsv의 일부 행이 탭 대신 스페이스로 구분되어 pandas로 인식되지 않아 위와 같은 오류가 발생합니다.

xnli.dev.ko.tsv

image

xnli.dev.ko.tsv의 한 행도 pandas에서 탭으로 구분되지 않았습니다.

xnli.test.ko.tsv

premise 이런 설명이 없다면 성이 프랑스식 수르놈에서 나온 정보라는 건 별로 관심이 없는 것 같습니다.에 해당하는 행도 구분자 탭을 인식하지 못하였습니다.

@oikosohn oikosohn changed the title multinli.train.ko.tsv에서 스페이스로 구분된 행이 있습니다. multinli.train.ko.tsv, xnli.dev.ko.tsv 에서 스페이스로 구분된 행이 있습니다. Feb 1, 2022
oikosohn added a commit to oikosohn/KorNLUDatasets that referenced this issue Feb 1, 2022
- kakaobrain#4 에서 제기한 문제를 해결하기 위해 스페이스를 탭으로 수정했습니다.
- multinli.train.ko.tsv는 수정할 행이 많고 찾기 힘들기에 xnli.dev.ko.tsv 파일만 수정했습니다.
@oikosohn oikosohn changed the title multinli.train.ko.tsv, xnli.dev.ko.tsv 에서 스페이스로 구분된 행이 있습니다. multinli.train.ko.tsv, xnli.dev.ko.tsv, xnli.test.ko.tsv 에서 스페이스로 구분된 행이 있습니다. Feb 1, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant