Clustering: K-Means – Data Warehouse & Data Minging #6

Clustering

Clustering ialah suatu teknik data mining yang membagi- bagikan data ke dalam sebagian kelompok( tim ataupun cluster ataupun segmen) yang masing- masing cluster bisa dihuni sebagian anggota bersama- sama. Ini menyerupai menyusunan binatang serta tumbuhan ke dalam keluarga– keluarga yang para anggotanya memiliki kemiripan. Clustering tidak mensyaratkan pengetahuan lebih dahulu dari tim yang membangun, serta dari para anggota yang harus mengikutinya.

K-Means

Pencetus algoritma K-Means adalah J.B. MacQueen, salah satu algoritma clustering yang mengelompokkan data sesuai dengan karakteristik atau ciri-ciri bersama yang serupa. Grup data ini bernama cluster. Data di dalam suatu cluster mempunyai ciri-ciri (atau fitur, karakteristik, atribut, properti) serupa dan tidak serupa dengan data pada cluster lain.

K-means merupakan salah satu metode clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang sama. Data dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karateristik yang berbeda di kelompokan ke dalam cluster yang lain. Secara umum algoritma dasar dari K-Means Clustering adalah sebagai berikut :

  1. Tentukan jumlah cluster
  2. Alokasikan data ke dalam cluster secara random
  3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
  4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
  5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan.

 

Distance space digunakan untuk menghitung jarak antara data dan centroid. Salah satu persamaanya  yaitu Euclidean Distance Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah sebagai berikut :

dij = Jarak objek antara objek i dan j
p = Dimensi data
Xik = Koordinat dari obyek i pada dimensi k
Xjk = Koordinat dari obyek j pada dimensi k