Read this README in English.
NLP Indonesia kurang terwakili dalam komunitas riset, dan salah satu alasannya adalah kurangnya akses ke dataset publik (Aji et al., 2022). Untuk mengatasi masalah ini, kami memulai NusaCrowd, kolaborasi bersama untuk mengumpulkan dataset NLP untuk bahasa Indonesia. Bantu kami mengumpulkan dan memusatkan dataset NLP Indonesia, dan menjadi rekan penulis makalah penelitian kami yang akan datang.
Anda dapat berkontribusi dengan mengajukan set data NLP yang tidak terdaftar di catatan kami. Cukup isi formulir ini, dan kami akan memeriksa dan menyetujui entri Anda.
Kami akan memberikan poin kontribusi berdasarkan beberapa faktor, antara lain: kualitas dataset, kelangkaan bahasa, atau kelangkaan downstream task.
Anda juga dapat mengajukan dataset dari pekerjaan Anda yang lampau, yang masih belum terbuka untuk umum. Pada kasus ini, Anda harus membuat dataset Anda terbuka dengan cara meng-uploadnya ke publik, misalnya melalui Github atau Google Drive.
Anda dapat mengirimkan beberapa entri, dan jika total poin kontribusi sudah di atas ambang batas, kami akan menyertakan Anda sebagai rekan penulis (Umumnya cukup mengajukan 1-2 dataset). Baca metode penghitungan poin selengkapnya di sini.
Catatan: Kami tidak mengambil kepemilikan dari dataset yang disubmit. Lihat FAQ di bawah.
Ya! Selain pengumpulan dataset baru, kami juga memusatkan dataset yang ada dalam satu skema yang memudahkan peneliti untuk menggunakan dataset NLP Indonesia. Anda dapat membantu kami di sana dengan membuat pemuat dataset. Untuk detail lebih lanjut tentang itu, bisa ditemukan di sini.
Sebagai alternatif, kami juga mendata paper-paper riset NLP di bahasa-bahasa Indonesia yang mana mereka masih belum membuka datasetnya. Kami akan menghubungi para penulis paper-paper tersebut nanti untuk terlibat di NusaCrowd. Lebih lanjut tentang ini ada di Slack server kami.
NusaCrowd tidak membuat duplikat atau salinan dari dataset yang disubmit. Maka, pemilik dataset yang disubmit tetap berada di author asli. NusaCrowd hanya sebatas membuat dataloader, yaitu pengunduh file dan pembaca data untuk menyederhanakan dan mengstandarisasi proses pembacaan data. Kami juga hanya mengumpulkan metadata dari dataset yang disubmit untuk ditampilkan di katalog kami agar dataset Anda lebih mudah ditemukan! Sitasi ke pemilik data asli juga disediakan baik di NusaCrowd atau di katalog kami.
Lisensi untuk dataset tidak selalu jelas. Berikut adalah beberapa strategi yang bisa dicoba dalam pencarian Anda,
- periksa file seperti README atau LICENSE yang mungkin didistribusikan dengan dataset itu sendiri
- periksa halaman web dataset
- periksa makalah penelitian atau publikasi yang mengumumkan rilis dataset
- periksa situs web organisasi yang menyediakan dataset
Jika tidak ada lisensi resmi yang tercantum di mana pun, tetapi Anda menemukan halaman web yang menjelaskan kebijakan penggunaan data umum untuk dataset, Anda dapat kembali menyediakan URL tersebut dalam variabel _LICENSE
. Jika Anda tidak dapat menemukan informasi lisensi apa pun, harap dicatat di PR Anda dan masukkan _LICENSE="Unknown"
di script dataset Anda.
Anda dapat mengunggah dataset Anda secara publik terlebih dahulu, mis. di Github.
Jika Anda memiliki ide untuk repositori nusa-crowd, silakan buat issue
dan mintalah umpan balik
sebelum memulai PR apa pun.
Ya, kamu dapat kirimkan pertanyaanmu di kanal komunitas NusaCrowd! Silakan bergabung ke kanal komunitas NusaCrowd di grup WhatsApp kami dan server Slack.
Kami sangat menghargai bantuan Anda!
Artefak hackathon ini akan dijelaskan dalam makalah penelitian akademis mendatang yang menargetkan machine learning atau NLP audiens. Silakan merujuk ke bagian ini untuk imbalan kontribusi Anda karena membantu Nusantara NLP. Kami menyadari bahwa beberapa dataset memerlukan lebih banyak upaya daripada yang lain, jadi hubungi kami jika Anda memiliki pertanyaan. Tujuan kami adalah menjadi inklusif dengan kredit!