Skip to content
This repository has been archived by the owner on Oct 22, 2023. It is now read-only.

Transliteration issues #6

Open
dim321 opened this issue Jul 21, 2022 · 1 comment
Open

Transliteration issues #6

dim321 opened this issue Jul 21, 2022 · 1 comment

Comments

@dim321
Copy link
Contributor

dim321 commented Jul 21, 2022

Hello, Vee!
Thanks for your accept my PR. I hope you are well.
Now I'm testing your great gem and I have a some confusing results, take a look, please:
สมศักดิ์ expected: Somsak result: Som Sakt
กัญญา expected: Kanya result: Kann
อนงค์ expected: Anong result: Nng
กมล expected: Kamon result: Kmn
อินทิรา expected: Intira result: I Ntin
Could you comment this results, please ? It's correct ?

Also, sometimes we have non-ASCII chars in result:

ไทเกอร์มวยไทย 7/35 ซอยท่าเอียด ตำบลฉลอง อำเภอเมือง จังหวัดภูเก็ต 83000
result: Thเ Ko Muaitai, 7/35, Toit (third char is non-ASCII)

บริษัท ไปรษณีย์ไทย จำกัด 228/24-25 ถนนลาดพร้าว จอมพร, จตุจักร กรุงเทพ 10900
result: Bnitat Pnaitn Thai Ch ำka D, 228/24 25, Tnnnatp (non-ASCII chars in the middle Ch ำka)

Also, gem just drop ASCII chars from mixed text.
It is bugs? Can I help you to fix it?

@veer66
Copy link
Owner

veer66 commented Jul 22, 2022

สมศักดิ์ expected: Somsak result: Som Sakt
กัญญา expected: Kanya result: Kann
อนงค์ expected: Anong result: Nng
กมล expected: Kamon result: Kmn
อินทิรา expected: Intira result: I Ntin

They are incorrect. Perhaps we can port another module from PyThaiNLP.

ไทเกอร์มวยไทย 7/35 ซอยท่าเอียด ตำบลฉลอง อำเภอเมือง จังหวัดภูเก็ต 83000
result: Thเ Ko Muaitai, 7/35, Toit (third char is non-ASCII)

บริษัท ไปรษณีย์ไทย จำกัด 228/24-25 ถนนลาดพร้าว จอมพร, จตุจักร กรุงเทพ 10900
result: Bnitat Pnaitn Thai Ch ำka D, 228/24 25, Tnnnatp (non-ASCII chars in the middle Ch ำka)

This case looks even more serious. I will check if PyThaiNLP has any updates.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants