Selamat datang di NusaCrowd!

132datasets telah terdaftar di NusaCrowd

Read this README in English.

NLP Indonesia kurang terwakili dalam komunitas riset, dan salah satu alasannya adalah kurangnya akses ke dataset publik (Aji et al., 2022). Untuk mengatasi masalah ini, kami memulai NusaCrowd, kolaborasi bersama untuk mengumpulkan dataset NLP untuk bahasa Indonesia. Bantu kami mengumpulkan dan memusatkan dataset NLP Indonesia, dan menjadi rekan penulis makalah penelitian kami yang akan datang.

Bagaimana cara berkontribusi?

Anda dapat berkontribusi dengan mengajukan set data NLP yang tidak terdaftar di catatan kami. Cukup isi formulir ini, dan kami akan memeriksa dan menyetujui entri Anda.

Kami akan memberikan poin kontribusi berdasarkan beberapa faktor, antara lain: kualitas dataset, kelangkaan bahasa, atau kelangkaan downstream task.

Anda juga dapat mengajukan dataset dari pekerjaan Anda yang lampau, yang masih belum terbuka untuk umum. Pada kasus ini, Anda harus membuat dataset Anda terbuka dengan cara meng-uploadnya ke publik, misalnya melalui Github atau Google Drive.

Anda dapat mengirimkan beberapa entri, dan jika total poin kontribusi sudah di atas ambang batas, kami akan menyertakan Anda sebagai rekan penulis (Umumnya cukup mengajukan 1-2 dataset). Baca metode penghitungan poin selengkapnya di sini.

Catatan: Kami tidak mengambil kepemilikan dari dataset yang disubmit. Lihat FAQ di bawah.

Ada cara lain untuk membantu?

Ya! Selain pengumpulan dataset baru, kami juga memusatkan dataset yang ada dalam satu skema yang memudahkan peneliti untuk menggunakan dataset NLP Indonesia. Anda dapat membantu kami di sana dengan membuat pemuat dataset. Untuk detail lebih lanjut tentang itu, bisa ditemukan di sini.

Sebagai alternatif, kami juga mendata paper-paper riset NLP di bahasa-bahasa Indonesia yang mana mereka masih belum membuka datasetnya. Kami akan menghubungi para penulis paper-paper tersebut nanti untuk terlibat di NusaCrowd. Lebih lanjut tentang ini ada di Slack server kami.

FAQ

Siapa yang menjadi pemilik dataset yang disubmit?

NusaCrowd tidak membuat duplikat atau salinan dari dataset yang disubmit. Maka, pemilik dataset yang disubmit tetap berada di author asli. NusaCrowd hanya sebatas membuat dataloader, yaitu pengunduh file dan pembaca data untuk menyederhanakan dan mengstandarisasi proses pembacaan data. Kami juga hanya mengumpulkan metadata dari dataset yang disubmit untuk ditampilkan di katalog kami agar dataset Anda lebih mudah ditemukan! Sitasi ke pemilik data asli juga disediakan baik di NusaCrowd atau di katalog kami.

Bagaimana cara menemukan lisensi yang sesuai untuk dataset saya?

Lisensi untuk dataset tidak selalu jelas. Berikut adalah beberapa strategi yang bisa dicoba dalam pencarian Anda,

periksa file seperti README atau LICENSE yang mungkin didistribusikan dengan dataset itu sendiri
periksa halaman web dataset
periksa makalah penelitian atau publikasi yang mengumumkan rilis dataset
periksa situs web organisasi yang menyediakan dataset

Jika tidak ada lisensi resmi yang tercantum di mana pun, tetapi Anda menemukan halaman web yang menjelaskan kebijakan penggunaan data umum untuk dataset, Anda dapat kembali menyediakan URL tersebut dalam variabel _LICENSE. Jika Anda tidak dapat menemukan informasi lisensi apa pun, harap dicatat di PR Anda dan masukkan _LICENSE="Unknown" di script dataset Anda.

Bagaimana jika dataset saya belum tersedia untuk umum?

Anda dapat mengunggah dataset Anda secara publik terlebih dahulu, mis. di Github.

Bisakah saya membuat PR jika saya punya ide / mengajukan perubahan kode pada repository nusa-crowd?

Jika Anda memiliki ide untuk repositori nusa-crowd, silakan buat issue dan mintalah umpan balik sebelum memulai PR apa pun.

Saya bingung, dapatkah Anda membantu saya?

Ya, kamu dapat kirimkan pertanyaanmu di kanal komunitas NusaCrowd! Silakan bergabung ke kanal komunitas NusaCrowd di grup WhatsApp kami dan server Slack.

Terima kasih!

Kami sangat menghargai bantuan Anda!

Artefak hackathon ini akan dijelaskan dalam makalah penelitian akademis mendatang yang menargetkan machine learning atau NLP audiens. Silakan merujuk ke bagian ini untuk imbalan kontribusi Anda karena membantu Nusantara NLP. Kami menyadari bahwa beberapa dataset memerlukan lebih banyak upaya daripada yang lain, jadi hubungi kami jika Anda memiliki pertanyaan. Tujuan kami adalah menjadi inklusif dengan kredit!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.id.md

README.id.md

Selamat datang di NusaCrowd!

132datasets telah terdaftar di NusaCrowd

Bagaimana cara berkontribusi?

Ada cara lain untuk membantu?

FAQ

Siapa yang menjadi pemilik dataset yang disubmit?

Bagaimana cara menemukan lisensi yang sesuai untuk dataset saya?

Bagaimana jika dataset saya belum tersedia untuk umum?

Bisakah saya membuat PR jika saya punya ide / mengajukan perubahan kode pada repository nusa-crowd?

Saya bingung, dapatkah Anda membantu saya?

Terima kasih!

Files

README.id.md

Latest commit

History

README.id.md

File metadata and controls

Selamat datang di NusaCrowd!

132datasets telah terdaftar di NusaCrowd

Bagaimana cara berkontribusi?

Ada cara lain untuk membantu?

FAQ

Siapa yang menjadi pemilik dataset yang disubmit?

Bagaimana cara menemukan lisensi yang sesuai untuk dataset saya?

Bagaimana jika dataset saya belum tersedia untuk umum?

Bisakah saya membuat PR jika saya punya ide / mengajukan perubahan kode pada repository nusa-crowd?

Saya bingung, dapatkah Anda membantu saya?

Terima kasih!