Jarak Antar Objek

Saat kita berbelanja di supermarket, kita mendapati beberapa barang ditata berdasarkan jenis-jenis tertentu misalnya makanan, minuman, pakaian, peralatan rumah tangga, peralatan masak, alat tulis dan kantor. Objek-objek yang memiliki tingkat kemiripan yang hampir sama diletakkan berdekatan. Contohnya barang-barang yang termasuk dalam jenis makanan akan dikelompokkan ke dalam tempat yang sama. Tidak hanya itu, kumpulan makanan biasanya paling dekat dengan kumpulan minuman. Dari contoh tersebut, semakin mirip suatu objek dengan objek lainnya, maka letak objek tersebut akan semakin dekatsemakin berbeda suatu objek dengan objek lainnya, maka letak objek tersebut akan semakin jauh.

Pengukuran kedekatan antar objek bergantung dari beberapa faktor seperti skala data (nominal, ordinal, interval, rasio). Hubungan antar variabel juga turut mempengaruhi pemilihan jarak yang digunakan. Misalnya jika antar variabel memilik korelasi yang cukup tinggi, maka jarak mahalanobis lebih baik digunakan daripada euclidian.

1. Jarak Untuk Atribut Nominal
Atribut nominal mempunyai k kategori yang tidak memiliki urutan yang berarti. Jarak antara dua objek dengan m variabel adalah

dengan p adalah banyaknya variabel yang mempunyai atribut yang sama.

Kadang-kala beberapa variabel lebih penting daripada lainnya yang menyebabkan suatu variabel mempunyai pengaruh yang lebih besar daripada lainnya. Untuk mengatasi hal ini maka kita bisa menggunakan jarak dengan bobot. Sehingga formula jarak yang baru adalah

dengan

2. Jarak Untuk Atribut Ordinal
Atribut ordinal mempunyai ciri yaitu kategori-nya memiliki urutan yang berarti. Pada perhitungan jarak ini, data atribut ordinal akan ditransformasi ke data interval, sehingga  jarak seperti euclidian/manhattan/mikowski bisa digunakan.

3. Jarak Untuk Atribut Numerik
Atribut numerik mempunyai ciri dapat dilakukan operasi penjumlahan dan/atau pembagian. Atribut ini terdiri dari atribut interval dan rasio. Beberapa perhitungan jarak yang bisa digunakan untuk atribut numerik adalah

  1. Euclidian distance
    Formula jarak ini didasarkan pada jarak dua titik A dan B (konsep pythagoras). yaitu

    perhitungan tersebut di ambil akar kuadrat nya agar satuan-nya sama.
  2. Manhattan distance
    Sementara jarak euclidian menggunakan nilai kuadrat, maka jarak manhattan menggunakan nilai mutlak. Secara konsep, jarak antar objek bisa digantikan oleh nilai deviasi.
  3. Minkowski distance
    Jarak ini merupakan generalisasi dari jarak euclidian distance dan manhattan distance yaitu

    dapat dilihat bahwa jika
    h = 1 maka menjadi jarak manhattan
    h = 2 maka menjadi jarak euclidian
    h ~ ∞ maka menjadi jarak chebyshev
  4. Supreme distance (Chebyshev distance)
    Jarak ini merupakan generalisasi dari jarak minkowski ketika nilai h sangat besar (h ~ ∞) yaitu
  5. Mahalanobis distance
    Jarak ini merupakan modifikasi dari jarak euclidian yaitu menambahkan matriks varian kovarian. Jarak ini seringkali digunakan untuk mengatasi permasalahan multikolinieritas antar variabel. Formula jarak ini dinyatakan dalam bentuk matriks seperti berikut

    dengan
    = vektor setiap objek (ukuran mx1)
    μ = nilai rata-rata setiap objek (ukuran mx1)
    S = matriks varian kovarian (ukuran mxm)

4. Jarak Untuk Atribut Campuran
Pada prakteknya, variabel yang ada tidak hanya berupa atribut nominal saja, atau ordinal saja, atau numerik saja. Seringkali kita dihadapkan pada kasus dengan lebih dari 1 atribut. Jarak untuk atribut campuran seperti digambarkan di bawah ini

jarak di atas mengungkapkan bahwa perhitungan jarak berbeda bergantung dari jenis atribut. Jika atribut nominal, maka jarak yang digunakan jarak untuk atribut nominal. Begitu juga jika atribut numerik, maka jarak yang digunakan adalah jarak untuk atribut numerik.