Teknik untuk menghilangkan outlier dalam pembersihan data

Teknik untuk menghilangkan outlier dalam pembersihan data-Kali ini Tim sekolah stata akan menjelaskan teori tentang teknik mengatasi outliers. Langsung saja kita bahas ya sobat. Ada beberapa teknik yang dapat digunakan untuk menghilangkan outlier dalam pembersihan data, diantaranya:

  1. Teknik batas: menentukan batas nilai (biasanya menggunakan nilai persentil atau kuartil) di mana data yang melebihi batas tersebut dianggap sebagai outlier.
  2. Teknik Z-score: menentukan nilai di mana data yang jauh dari mean sebesar beberapa standard deviation dianggap sebagai outlier.
  3. Teknik Modified Z-score: teknik ini sama dengan Z-score namun digunakan modified z-score yang dapat menangani skewness data
  4. Teknik Local Outlier Factor (LOF): teknik ini mengukur seberapa jauh satu titik diukur dari tetangga terdekatnya, titik dengan skor LOF yang rendah dianggap sebagai outlier.
  5. Teknik Isolation Forest : Teknik ini menggunakan metode Random Forest untuk memisahkan outlier dari data yang valid.

Pilihan teknik yang digunakan tergantung dari kondisi data, dan biasanya digunakan lebih dari satu teknik untuk mengevaluasi dan memvalidasi hasil.

Teknik untuk menghilangkan outlier dalam pembersihan data

Teknik Batas

Teknik batas digunakan untuk menentukan nilai batas di mana data yang melebihi batas tersebut dianggap sebagai outlier. Cara kerjanya adalah dengan menentukan nilai persentil atau kuartil sebagai batas, kemudian mengevaluasi data satu per satu untuk melihat apakah nilainya melebihi batas yang telah ditentukan.

Contoh: Jika sobat menentukan batas 75% (atau kuartil ke-3), maka semua data di atas nilai kuartil ke-3 akan dianggap sebagai outlier.

Langkah-langkah penggunaannya:

  1. Tentukan nilai batas persentil atau kuartil yang akan digunakan.
  2. Hitung nilai persentil atau kuartil dengan menggunakan fungsi yang tersedia dalam paket statistik.
  3. Pindahkan data satu per satu dan evaluasi apakah nilainya melebihi batas yang ditentukan.
  4. Tandai atau hapus data yang dianggap outlier.

Perlu diingat bahwa teknik ini lebih cocok untuk data yang distribusi normal, dalam kondisi yang lain teknik ini tidak efektif

Teknik Z-score

Teknik Z-score digunakan untuk menentukan nilai-nilai yang jauh dari mean (rata-rata) sebagai outlier. Cara kerjanya adalah dengan menghitung nilai Z-score untuk setiap data point, kemudian mengevaluasi apakah nilai Z-score melebihi batas yang telah ditentukan.

Langkah-langkah penggunaannya:

  1. Hitung mean dan standard deviation dari data.
  2. Hitung Z-score untuk setiap data point dengan rumus (data point – mean) / standard deviation
  3. Tentukan batas Z-score (biasanya 3 standard deviation)
  4. Data point yang memiliki Z-score lebih besar dari batas yang ditentukan dianggap sebagai outlier
  5. Tandai atau hapus data yang dianggap outlier.

Perlu diingat bahwa teknik ini cocok digunakan untuk data yang distribusi normal, jika distribusi data tidak normal maka teknik ini tidak dapat digunakan dan perlu menggunakan teknik lain.

Jika sobat ingin menggunakan teknik ini, Sobat harus meyakinkan bahwa distribusi data Sobat sebenarnya normal atau tidak. Ada beberapa cara untuk melakukan ini, seperti menggunakan uji normalitas atau melihat histogram dari data.

Teknik Local Outlier Factor (LOF)

Teknik Local Outlier Factor (LOF) digunakan untuk mengidentifikasi outlier dengan mengukur seberapa jauh satu titik diukur dari tetangga terdekatnya. Cara kerjanya adalah dengan menghitung rasio antara densitas tetangga yang ditentukan terhadap densitas titik yang ditentukan, dan data point yang memiliki skor LOF yang rendah dianggap sebagai outlier.

Langkah-langkah penggunaannya:

  1. Tentukan jumlah tetangga terdekat yang akan dihitung (k).
  2. Hitung jarak antara titik yang ditentukan dengan tetangga terdekatnya.
  3. Hitung rasio antara densitas tetangga terdekat dengan densitas titik yang ditentukan.
  4. Hitung skor LOF untuk setiap titik.
  5. Tentukan batas skor LOF yang akan digunakan untuk mengidentifikasi outlier.
  6. Tandai atau hapus data yang dianggap outlier.

Teknik LOF bekerja dengan baik pada data dengan densitas yang berbeda-beda, dan dapat digunakan pada data dengan distribusi yang tidak normal. Namun, LOF memerlukan pemilihan yang tepat dari parameter k (jumlah tetangga terdekat yang akan dihitung) dan batas skor LOF yang digunakan.

Seperti teknik lain, teknik LOF juga perlu digunakan bersama dengan teknik lain, untuk memvalidasi hasil yang diperoleh dari penghilangan outlier.

Teknik Isolation Fores

Teknik Isolation Forest digunakan untuk mengidentifikasi outlier dengan menggunakan algoritma Random Forest. Cara kerjanya adalah dengan membangun pohon decision dengan menggunakan Random sub-sample dari data, kemudian mengevaluasi setiap data point dengan mengukur jumlah langkah yang diperlukan untuk mencapainya. Data point yang diperlukan langkah lebih sedikit untuk ditemukan dianggap sebagai outlier.

Langkah-langkah penggunaannya:

  1. Pilih jumlah pohon yang akan digunakan dalam algoritma Isolation Forest.
  2. Bangun pohon decision dengan menggunakan random sub-sample dari data
  3. Ukur jumlah langkah yang diperlukan untuk mencapai setiap data point.
  4. Hitung skor isolation untuk setiap data point.
  5. Tentukan batas skor isolation yang akan digunakan untuk mengidentifikasi outlier.
  6. Tandai atau hapus data yang dianggap outlier.

Teknik Isolation Forest dapat digunakan pada data dengan distribusi yang tidak normal, dan menangani permasalahan yang timbul pada teknik lain seperti kesulitan dalam menentukan parameter k atau batas skor. Namun, teknik ini lebih membutuhkan komputasi yang cukup besar dibandingkan teknik lain.

Seperti teknik lain, teknik Isolation Forest juga perlu digunakan bersama dengan teknik lain, untuk memvalidasi hasil yang diperoleh dari penghilangan outlier.

Baca juga :

Scroll to Top