diff --git a/ML-DL/machinelearning_predictive_analysis.py b/ML-DL/machinelearning_predictive_analysis.py new file mode 100644 index 00000000..3c3fb520 --- /dev/null +++ b/ML-DL/machinelearning_predictive_analysis.py @@ -0,0 +1,191 @@ +# -*- coding: utf-8 -*- +"""Dicoding_MachineLearningTerapanProject1 (1).ipynb + +Automatically generated by Colaboratory. + +Original file is located at + https://colab.research.google.com/drive/1RheWqeG2ZnMvIe7xDo_aZJ6UPJmnzn9o + +Menambahkan Library yang diperlukan +""" + +# Commented out IPython magic to ensure Python compatibility. +import numpy as np +import matplotlib.pyplot as plt +import pandas as pd +# %matplotlib inline +import seaborn as sns + +"""Muat dataset langsung secara daring""" + +# load the dataset +url = 'https://raw.githubusercontent.com/tidyverse/ggplot2/main/data-raw/economics.csv' +economics = pd.read_csv(url, header=None) +economics + +"""![Metadata variable about economics usa dataset]() + +Metadata untuk tabel pertumbuhan ekonomi Amerika Serikat + +Mencari tahu jenis tipe data menggunakan fungsi df.info() +""" + +economics.info() + +"""Terlihat dataset tersebut semua dalam tipe 'Object'. Cukup aneh. Jika diperhatikan baik-baik indeks kolom tidak dalam bentuk yang benar. Memperbaiki indeks kolom menggunakan fungsi dari Pandas.""" + +economics.set_axis(['date', 'pce', 'pop', 'psavert', + 'uempmed', 'unemploy'], axis='columns', inplace=True) +economics = economics.iloc[1: , :] + +"""Cek ulang data""" + +economics + +"""Cek kembali jenis tipe data tersebut di setiap kolom.""" + +economics.info() + +"""Jenis data yang kurang tepat dapat menyebabkan kesalahan dan menyulitkan dalam proses preprocessing data. Oleh karena itu, perlu setiap jenis data dirubah tipenya sesuai dengan hasil atau nilai yang ada. +Tipe data dapat diubah dengan menggunakan method astype yang tersedia pada library Pandas. +""" + +economics['date'] = economics['date'].astype('datetime64') +economics['pce'] = economics['pce'].astype('float64') +economics['pop'] = economics['pop'].astype('float64') +economics['psavert'] = economics ['psavert'].astype('float64') +economics['uempmed'] = economics ['uempmed'].astype('float64') +economics['unemploy'] = economics ['unemploy'].astype('int64') + +"""Mengubah index baris agar lebih enak dipandang menggunakan set_index method. Tambahkan argumen inplace='True' dengan tujuan agar perubahan tersebut diterapkan pada dataframe (override data).""" + +economics.set_index('date', inplace=True) + +"""Lakukan perhitungan analisis statistika sederhana menggunakan fungsi describe()""" + +economics.describe() + +"""Terlihat dari hasil, nilai terendah tidak menampilkan angka 0 sehingga tidak adanya data yang hilang. +Menampilkan dataframe economics kembali dengan tujuan melihat hasil akhir perubahan tersebut. +""" + +economics + +"""Salah satu hal yang perlu dilakukan sebelum melakukan pemodelan ialah dengan menghitung korelasi matriks dengan tujuan mengetahui korelasi variabel-variabel tersebut. Hal ini dapat dilakukan dengan menggunakan library matplotlib dan library seaborn.""" + +plt.figure(figsize=(10, 8)) +correlation_matrix = economics.corr().round(2) + +# Untuk menge-print nilai di dalam kotak, gunakan parameter anot=True +sns.heatmap(data=correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5, ) +plt.title("Correlation Matrix untuk Fitur Numerik ", size=20) + +"""Hasil matriks tersebut mendeskripsikan bahwa terdapat korelasi lemah antara variabel psavert dengan variabel target, yaitu ‘unemploy’ serta memiliki korelasi cukup tinggi dengan uempmed, pop dan pce (<0.5). Sehingga, dapat diabaikan. +Nilai-nilai numerik tersebut dapat dijabarkan dalam bentuk histogram agar membantu dalam pembacaan data. +""" + +economics.hist(bins=50, figsize=(20,15)) +plt.show() + +"""Gunakan fungsi drop untuk menghapus kolom.""" + +economics.drop(['psavert'], inplace=True, axis=1) +economics.head() + +"""Preprocessing kemudian dilakukan dengan tujuan agar pembuatan model machine learning dapat dilakukan dengan mudah dan tanpa hambatan. Preprocessing mencakup pembagian data test dan training (perbandingan 90:10, dengan nilai random state fixed tujuan agar memiliki value yang sama baik di bagian train maupun test.""" + +from sklearn.model_selection import train_test_split + +X = economics.drop(["unemploy"],axis =1) +y = economics["unemploy"] +X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.1, random_state = 123) + +"""Melakukan proses pengecekan dengan tujuan memastikan jumlah data yang terbagi.""" + +print(f'Total # of sample in whole dataset: {len(X)}') +print(f'Total # of sample in train dataset: {len(X_train)}') +print(f'Total # of sample in test dataset: {len(X_test)}') + +"""Standarisasi perlu dilakukan agar menghindari kebocoran data selama proses training (pelatihan). Standarisasi dapat dilakukan dengan mudah dengan mengimpor fungsi StandardScaler. Lakukan terlebih dahulu untuk training data.""" + +from sklearn.preprocessing import StandardScaler + +numerical_features = ['uempmed', 'pop'] +scaler = StandardScaler() +scaler.fit(X_train[numerical_features]) +X_train[numerical_features] = scaler.transform(X_train.loc[:, numerical_features]) +X_train[numerical_features].head() + +"""Melakukan pengecekan untuk memastikan standarisasi dilakukan dengan tepat.""" + +X_train[numerical_features].describe().round(4) + +"""Mempersiapkan dataframe baru untuk proses pelatihan model-model yang akan digunakan, terdiri dari 'K-Nearest Neighborhood, Random Forest, Boosting Algorithm (Seperti yang dijelaskan dalam dokumen)""" + +models = pd.DataFrame(index=['train_mse', 'test_mse'], + columns=['KNN', 'RandomForest', 'Boosting']) + +"""Perlu diketahui, dalam metode K-Nearest Neighborhood terdapat beberapa metriks yang dapat digunakan. Salah satunya ialah metrik euclidean yang digunakan untuk pembuatan model ini, dalam prosesnya model hanya menggunakan k = 8 tetangga.""" + +from sklearn.neighbors import KNeighborsRegressor +from sklearn.metrics import mean_squared_error + +knn = KNeighborsRegressor(n_neighbors=8) +knn.fit(X_train, y_train) + +models.loc['train_mse','knn'] = mean_squared_error(y_pred = knn.predict(X_train), y_true=y_train) + +"""Kemudian algoritma selanjutnya yang akan digunakan adalah algoritma random forest. Dalam prosesnya, Anda melakukan impor dengan bantuan sklearn library dengan menggunakan fungi RandomForestRegressor Anda dapat mengubah hyperparameter sesuai dengan yang Anda inginkan.""" + +# Impor library yang dibutuhkan +from sklearn.ensemble import RandomForestRegressor + +# buat model prediksi +RF = RandomForestRegressor(n_estimators=50, max_depth=16, random_state=55, n_jobs=-1) +RF.fit(X_train, y_train) + +models.loc['train_mse','RandomForest'] = mean_squared_error(y_pred=RF.predict(X_train), y_true=y_train) + +"""Kemudian algoritma selanjutnya yang akan digunakan adalah algoritma boosting. Dalam prosesnya, Anda melakukan impor dengan bantuan sklearn library dengan method ensemble dengan membuat instantiate menggunakan fungi AdaBoostRegressor Anda dapat mengubah hyperparameter sesuai dengan yang Anda inginkan. Hyperprameter tersebut terdiri dari learning_rate serta random_state. """ + +from sklearn.ensemble import AdaBoostRegressor + +boosting = AdaBoostRegressor(learning_rate=0.05, random_state=55) +boosting.fit(X_train, y_train) +models.loc['train_mse','Boosting'] = mean_squared_error(y_pred=boosting.predict(X_train), y_true=y_train) + +"""Melakukan scaling terhadap fitur numerik pada X_test sehingga memiliki rata-rata=0 dan standar deviasi=1""" + +X_test.loc[:, numerical_features] = scaler.transform(X_test[numerical_features]) + +"""Kemudian evaluasi model dilakukan dengan menggunakan algoritma mean squared error dengan membuat dataframe baru ditambahkan dengan kolom test dan train serta dictionary untuk setiap algoritma yang digunakan. Kemudian di akhir menghitung mse menggunakan for loop untuk train dan test data. Setelah itu, lakukan pemanggilan variabel mse.""" + +mse = pd.DataFrame(columns=['train', 'test'], index=['KNN','RF','Boosting']) + + +model_dict = {'KNN': knn, 'RF': RF, 'Boosting': boosting} + + +for name, model in model_dict.items(): + mse.loc[name, 'train'] = mean_squared_error(y_true=y_train, y_pred=model.predict(X_train))/1e3 + mse.loc[name, 'test'] = mean_squared_error(y_true=y_test, y_pred=model.predict(X_test))/1e3 + + +mse + +"""Hasil performansi dari ketiga algoritma yang dipilih tersebut menunjukkan perbedaan yang cukup terlihat bagi model. Performansi menunjukkan bahwa algoritma random forest memiliki nilai mse yang lebih kecil dibandingkan dengan kedua model lainnya. Lakukan plotting terhadap performa menggunakan library matplotlib.""" + +fig, ax = plt.subplots() +mse.sort_values(by='test', ascending=False).plot(kind='barh', ax=ax, zorder=3) +ax.grid(zorder=0) + +"""Lakukan perhitungan prediksi model untuk mengetahui tingkat akurasi dari prediksi yang dilakukan oleh model dengan hasil aktual.""" + +prediksi = X_test.iloc[:1].copy() +pred_dict = {'y_true':y_test[:1]} +for name, model in model_dict.items(): + pred_dict['prediksi_'+name] = model.predict(prediksi).round(1) + +pd.DataFrame(pred_dict) + +"""Hasil dari performa tersebut menunjukkan bahwa algoritma Random Forest menjadi algoritma paling sesuai untuk masalah tersebut. Setiap performa model tergantung dari kondisi permasalahan dan tentunya tersedianya data yang tentunya berbeda-beda, sehingga hal ini tergantung dari banyak kasus.""" \ No newline at end of file