🎉 Diskon hingga 15% semua kelas Sekolah Stata! Presale & Early Bird

Apa itu Logistic Regression?

Logistic Regression adalah salah satu metode statistik yang digunakan untuk memodelkan hubungan antara variabel independen (variabel prediktor) dan variabel dependen biner (variabel target). Metode ini sering digunakan untuk memprediksi kemungkinan kejadian suatu peristiwa berdasarkan nilai-nilai dari beberapa faktor prediktor.

1. Introduction to Logistic Regression

Logistic Regression adalah algoritma pembelajaran mesin yang digunakan untuk memecahkan masalah klasifikasi. Meskipun memiliki kata “regression” dalam namanya, metode ini sebenarnya digunakan untuk klasifikasi, bukan regresi. Dalam Logistic Regression, variabel dependen adalah biner, yang berarti nilainya hanya bisa berupa 0 atau 1.

 

2. What is Logistic Regression?

Definition and Purpose

Logistic Regression bertujuan untuk memodelkan probabilitas kejadian suatu peristiwa dengan memperhatikan faktor-faktor prediktor yang berkaitan. Misalnya, dalam konteks medis, Logistic Regression dapat digunakan untuk memprediksi apakah seorang pasien memiliki risiko penyakit jantung berdasarkan faktor-faktor seperti usia, jenis kelamin, dan tekanan darah.

Key Differences from Linear Regression

Logistic Regression berbeda dari Linear Regression karena Linear Regression digunakan untuk memodelkan hubungan linier antara variabel dependen dan variabel independen yang kontinu, sedangkan Logistic Regression memodelkan hubungan logistik antara variabel dependen biner dan variabel independen.

3. Logistic Regression Equation

Logistic Regression menggunakan fungsi logit atau sigmoid untuk memodelkan probabilitas kejadian suatu peristiwa.

Logit Function

Fungsi logit adalah transformasi logaritmik dari odds ratio, yang dinyatakan sebagai:

dengan $p$ adalah probabilitas kejadian peristiwa.

Sigmoid Function

Fungsi sigmoid adalah fungsi matematika yang mengubah nilai logit menjadi probabilitas. Fungsi ini dinyatakan sebagai:

dengan $z$ adalah nilai logit. Fungsi sigmoid menghasilkan nilai antara 0 dan 1, yang merupakan probabilitas kejadian peristiwa.

4. Logistic Regression Assumptions

Sebelum menggunakan Logistic Regression, terdapat beberapa asumsi yang harus dipenuhi:

Independence of Observations

Asumsi ini mengasumsikan bahwa observasi yang digunakan dalam analisis adalah independen satu sama lain. Artinya, nilai-nilai dari variabel independen tidak terkait satu sama lain.

Linearity of the Relationship

Logistic Regression membutuhkan hubungan antara variabel independen dan log-odds untuk bersifat linear. Jika hubungan ini tidak linear, maka model Logistic Regression mungkin tidak cocok untuk digunakan.

No Multicollinearity

Multikolinearitas mengacu pada adanya korelasi tinggi antara variabel independen dalam model. Hal ini dapat menyebabkan masalah dalam mengestimasi koefisien Logistic Regression dengan akurasi yang baik.

Large Sample Size

Logistic Regression mengasumsikan sampel yang cukup besar untuk menghasilkan estimasi yang stabil dan akurat.

Absence of Outliers

Outliers dapat mempengaruhi hasil dari model Logistic Regression. Oleh karena itu, asumsi ini mengharuskan tidak adanya nilai ekstrim yang signifikan dalam data.

5. Logistic Regression Model Building

Data Preparation and Exploration

Sebelum membangun model Logistic Regression, langkah pertama adalah mempersiapkan data dengan membersihkan, mengubah format, dan mengeksplorasi variabel-variabel yang akan digunakan.

Variable Selection

Selanjutnya, variabel-variabel yang paling relevan dan memiliki pengaruh signifikan terhadap variabel target harus dipilih. Pemilihan variabel yang tepat akan mempengaruhi kualitas dan kehandalan model.

Artikel Blog Sekolah Stata di indeks Oleh Google Scholar

Akses Google Scholar

Model Training and Evaluation

Setelah variabel dipilih, model Logistic Regression dapat dilatih menggunakan data yang tersedia. Model ini kemudian dievaluasi menggunakan metrik-metrik seperti akurasi, presisi, recall, F1 score, dan kurva ROC.

6. Interpretation of Logistic Regression Coefficients

Koefisien dalam model Logistic Regression memberikan informasi tentang pengaruh variabel independen terhadap probabilitas kejadian peristiwa.

Odds Ratio

Koefisien dalam model Logistic Regression dapat diinterpretasikan sebagai rasio odds. Misalnya, jika koefisien suatu variabel adalah 0,5, maka setiap peningkatan satu unit dalam variabel tersebut akan menghasilkan rasio odds sebesar 0,5.

Confidence Intervals

Selain koefisien, interval kepercayaan juga memberikan informasi tentang sejauh mana estimasi koefisien dapat diandalkan.

Significance Testing

Pengujian signifikansi statistik digunakan untuk menentukan apakah koefisien dalam model memiliki pengaruh yang signifikan terhadap variabel target.

7. Evaluating the Performance of Logistic Regression

Confusion Matrix

Confusion matrix digunakan untuk mengukur kinerja model Logistic Regression dengan membandingkan prediksi model dengan nilai sebenarnya dari variabel target.

Accuracy, Precision, Recall, and F1 Score

Metrik-metrik seperti akurasi, presisi, recall, dan F1 score memberikan informasi lebih lanjut tentang kualitas prediksi dari model Logistic Regression.

ROC Curve and AUC

Kurva ROC dan area di bawah kurva (AUC) digunakan untuk mengevaluasi kemampuan model dalam membedakan antara kelas positif dan negatif.

8. Applications of Logistic Regression

Logistic Regression memiliki berbagai aplikasi di berbagai bidang, termasuk:

Binary Classification Problems

Logistic Regression dapat digunakan untuk memecahkan masalah klasifikasi biner, seperti prediksi apakah seorang pelanggan akan membeli produk atau tidak.

Predicting Probabilities

Dengan menggunakan model Logistic Regression, kita dapat memprediksi probabilitas kejadian suatu peristiwa berdasarkan nilai-nilai variabel prediktor.

Risk Assessment and Fraud Detection

Logistic Regression dapat digunakan dalam penilaian risiko dan deteksi penipuan. Misalnya, model dapat digunakan untuk memprediksi risiko kredit seseorang berdasarkan faktor-faktor seperti penghasilan dan riwayat kredit.

9. Advantages and Disadvantages of Logistic Regression

Advantages

  • Mudah diinterpretasikan dan menjelaskan hubungan antara variabel prediktor dan variabel target.
  • Cocok untuk data dengan variabel dependen biner atau nominal dengan lebih dari dua kategori.
  • Efisien dalam pemrosesan komputasi dan dapat dijalankan pada dataset yang besar.

Disadvantages

  • Memprediksi hanya untuk variabel dependen biner.
  • Asumsi asumsi tertentu harus dipenuhi agar hasilnya dapat diandalkan.
  • Tidak efektif jika hubungan antara variabel independen dan variabel dependen bukanlah linear atau logistik.

10. Conclusion

Logistic Regression adalah metode yang berguna dalam memodelkan hubungan antara variabel prediktor dan variabel target yang biner. Dengan menggunakan fungsi logit dan sigmoid, Logistic Regression dapat memprediksi probabilitas kejadian peristiwa berdasarkan faktor-faktor prediktor. Dalam membangun model Logistic Regression, perlu memperhatikan asumsi-asumsi yang harus dipenuhi dan memilih variabel yang relevan. Meskipun memiliki kelebihan dan kekurangan, Logistic Regression tetap menjadi alat yang berguna dalam analisis data dan pemecahan masalah klasifikasi.

11. FAQs

Q: Apakah Logistic Regression hanya digunakan untuk variabel dependen biner?

A: Ya, Logistic Regression digunakan untuk memodelkan hubungan antara variabel independen dan variabel dependen biner.

Q: Apa perbedaan antara Logistic Regression dan Linear Regression?

A: Perbedaan utama antara Logistic Regression dan Linear Regression adalah jenis variabel dependen yang digunakan. Logistic Regression digunakan untuk variabel dependen biner, sedangkan Linear Regression digunakan untuk variabel dependen kontinu.

Q: Apa yang dimaksud dengan odds ratio dalam Logistic Regression?

A: Odds ratio adalah perbandingan antara odds kejadian suatu peristiwa pada kelompok yang memiliki nilai tertentu pada variabel prediktor dengan kelompok yang memiliki nilai referensi pada variabel prediktor.

Q: Apa keuntungan menggunakan Logistic Regression?

A: Keuntungan menggunakan Logistic Regression antara lain adalah kemampuannya dalam menjelaskan hubungan antara variabel prediktor dan variabel target, serta kemampuannya dalam memodelkan probabilitas kejadian peristiwa.

Q: Apakah Logistic Regression cocok untuk data dengan variabel dependen nominal?

A: Ya, Logistic Regression juga dapat digunakan untuk data dengan variabel dependen nominal dengan lebih dari dua kategori.

 

Baca juga:

Scroll to Top