Berita merupakan hal yang senantiasa menjadi salah satu sumber fakta bagi masyarakat. Dalam hal mengklasifikasinya, diperlukan RNN dalam mengautomasi kerjanya. Klasifikasi data berita yang dilakukan berdasarkan isu dan tonalitas (positif, negatif, dan netral) dari berita tersebut. Sumber pengambilan data dilakukan dari Jakarta Open Data (https://data.jakarta.go.id/dataset?tags=Berita). Dengan metode LSTM, akurasinya sampai 90% untuk mengunggah judul berita yang ada. Hal ini menjadikan RNN sebagai alat yang layak untuk mengklasifikasikan berita sesuai isinya.
Proyek ini membahas penggunaan metode Long Short-Term Memory (LSTM) dalam klasifikasi teks untuk mengelompokkan berita berdasarkan isu dan tonalitas. Proyek ini menggunakan data berita dari Jakarta Open Data dengan rentang waktu 2019-2020. Praproses data meliputi pelabelan berita, case folding, stopword removal, dan tokenisasi. Pemodelan data dilakukan dengan pembagian data latih dan tes, tokenisasi menggunakan LSTM, dan pengecekan akurasi dan loss.
Proyek ini fokus pada klasifikasi berita berdasarkan tonalitas (Negatif, Netral, Positif) dengan menggunakan LSTM. Data pelatihan dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian. Model jaringan saraf dibangun dengan lapisan embedding, LSTM, dan lapisan dropout. Hasil pelatihan menunjukkan akurasi 93%. Model ini dapat mencapai akurasi terbaik dengan aktivasi Sigmoid dan optimizer Adam.
Pada tahap perolehan data, dilakukan pengumpulan data berita dari Jakarta Open Data dengan rentang waktu 2019-2020. Data tersebut berisikan informasi berita, tanggal, isu, tonalitas (Positif, Netral, dan Negatif), serta tautan. Tonalitas berita sudah disematkan label sesuai isinya, baik positif, negatif, maupun netral. Data ini menjadi dasar untuk analisis klasifikasi teks menggunakan metode Long Short-Term Memory (LSTM).
Implementasi dari proyek ini telah diterapkan pada Streamlit guna memfasilitasi penggunaan model menjadi lebih interaktif.
- Buka Tautan
https://klasifikasi-judul-berita.streamlit.app/
- Pilih antara input teks atau input data CSV atau Excel dengan nama kolom 'teks'
- Klik tombol 'Prediksi'
- Lihatlah hasil yang ditemukan.
Tips: Pastikan kepala kolom bernamakan "teks" dan bukan kata lain. Jangan lupa untuk menghapus tanda koma (,) pada dataset Excelnya sebelum diinput.
News is something that has always been one of the sources of facts for society. In terms of classifying it, RNN is needed to automate its work. The classification of news data is based on the issue and tonality (positive, negative, and neutral) of the news. The source of data collection is from Jakarta Open Data (https://data.jakarta.go.id/dataset?tags=Berita). With the LSTM method, the accuracy is up to 90% for uploading existing news titles. This makes RNN a viable tool for classifying news according to its content.
This project discusses the use of Long Short-Term Memory (LSTM) method in text classification to categorise news based on issues and tonality. This project uses news data from Jakarta Open Data with a time span of 2019-2020. Data pre-processing includes news labelling, case folding, stopword removal, and tokenisation. Data modelling is done by dividing training and test data, tokenisation using LSTM, and checking accuracy and loss.
In the data acquisition stage, news data was collected from Jakarta Open Data with a time span of 2019-2020. The data contains news information, date, issue, tonality (Positive, Neutral, and Negative), and link. News tonality has been labelled according to its content, either positive, negative, or neutral. This data is the basis for text classification analysis using the Long Short-Term Memory (LSTM) method.
The implementation of this project has been deployed on Streamlit to facilitate more interactive use of the model.
- Open link
https://klasifikasi-judul-berita.streamlit.app/
- Choose between text input or CSV or Excel data input with column name 'text'
- Click on "Prediksi" Button.
- Look at the results found.
Tips: Make sure the column head is "text" and not other words. Don't forget to remove the comma (,) in the Excel dataset before inputting.
Kelompok 5 RA Deep Learning Anggota :
- Naomi Natasya 120450098
- Bane Rael Sharin 120450101
- Devri Zefanya 120450105
- Rayhan Octianto 120450085