-
Notifications
You must be signed in to change notification settings - Fork 0
/
part2_k_means.py
113 lines (91 loc) · 3.38 KB
/
part2_k_means.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Tue Jan 3 10:25:03 2023
@author: delhay
"""
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import time
from sklearn import cluster
from sklearn import metrics
# Parser un fichier de donnees au format arff
# data est un tableau d ’ exemples avec pour chacun
# la liste des valeurs des features
#
# Dans les jeux de donnees consideres :
# il y a 2 features ( dimension 2 )
# Ex : [[ - 0 . 499261 , -0 . 0612356 ] ,
# [ - 1 . 51369 , 0 . 265446 ] ,
# [ - 1 . 60321 , 0 . 362039 ] , .....
# ]
#
# Note : chaque exemple du jeu de donnees contient aussi un
# numero de cluster . On retire cette information
path = './dataset-rapport/'
name_file = 'zz2.txt'
databrut = np.loadtxt(path + name_file)
datanp = [ [ x[0] ,x[1]] for x in databrut]
datanp = np.asarray(datanp)
f0 = datanp [:,0] # tous les elements de la premiere colonne
f1 = datanp [:,1] # tous les elements de la deuxieme colonne
#
# Les donnees sont dans datanp ( 2 dimensions )
# f0 : valeurs sur la premiere dimension
# f1 : valeur sur la deuxieme dimension
#
print ( " Appel KMeans pour une valeur fixee de k (=nombre de clusters)" )
silhouette = []
davies_bouldin_score = []
calinski_harabasz_score = []
temps_calcul = []
nb_iteration = []
for k in range(2, 10):
tps1 = time.time ()
model = cluster.KMeans (n_clusters =k , init = 'k-means++')
model.fit ( datanp )
tps2 = time.time ()
labels = model.labels_
iteration = model.n_iter_
plt.scatter ( f0 , f1 , c = labels , s = 8 )
plt.title ( 'Donnees apres clustering Kmeans pour k = %i' %k)
plt.show ()
print ( " nb clusters = " ,k , " , nb iter = " , iteration , " ,runtime = " , round (( tps2 - tps1 ) * 1000 , 2 ) ," ms " )
silhouette.append(metrics.silhouette_score(datanp, labels))
davies_bouldin_score.append(metrics.davies_bouldin_score(datanp, labels))
temps_calcul.append(round (( tps2 - tps1 ) * 1000)) #en ms
nb_iteration.append(iteration)
X = range(2, 10)
plt.bar(X, silhouette)
plt.xticks(X, X)
plt.title ( "Comparaison du coefficient de silhouette pour différents nombres de clusters " )
plt.xlabel("Nombre de clusters")
plt.ylabel("Valeur du coefficient de silhouette")
plt.grid()
plt.show ()
plt.bar(X, davies_bouldin_score)
plt.xticks(X, X)
plt.title ( "Comparaison de l'indice de Davies Bouldin pour différents nombres de clusters " )
plt.xlabel("Nombre de clusters")
plt.ylabel("Valeur de l'indice de Davies Bouldin")
plt.grid()
plt.show ()
plt.bar(X, temps_calcul)
plt.xticks(X, X)
plt.title ( "Comparaison du temps de calcul pour différents nombres de clusters" )
plt.xlabel("Nombre de clusters")
plt.ylabel("Temps de calcul en ms")
plt.grid()
plt.show ()
plt.bar(X, nb_iteration)
plt.xticks(X, X)
plt.title ( "Comparaison du nombre d'itération pour différents nombres de clusters" )
plt.xlabel("Nombre de clusters")
plt.ylabel("Nombre d'itération")
plt.grid()
plt.show ()
silhouette = np.asarray(silhouette)
davies_bouldin_score = np.asarray(davies_bouldin_score)
print("Le nombre de clusters optimal, d'après le coefficient de silhouette est", X[np.nanargmax(silhouette)])
print("Le nombre de clusters optimal, d'après l'indice de Davies Bouldin est", X[np.nanargmin(davies_bouldin_score)])