Data terdiri dari 6 variabel yaitu kode, jabatan, deskripsi, skill dan link.
Metode yang digunakan adalah scraping data menggunakan silenium, data tersebut berbentuk non strukter berntuk web kemudian diubah menjadi data yang berbentuk terstruktur
silenium adalah satu satu bot yang dapat mengunjungi web secara otomatis. silenium biasanya dipakai untuk web scriping dan aplikasi bot lainnya.
silenium di google collab telah tersedia secara praktis, sehingga kita akan praktis menggunakan google collab tanpa harus menggistall python di laptop kita.
Untuk melengkapi bot silenium maka bot dibekali dengan beberapa tools/ library yang ada. sebagai berikut:
fungsi lain untuk perbekalan scraping adalah screenshoot dan scroling
screenshoot adalah fungsi yang bertujuan untuk melihat dan memantu pergerakan silenium. fungsi ini sangat bermanfaat ketika mengunjungi halaman yang ternyata terdapat eror. biasanya eror ini terjadi karena kesalahan pengambilan pach , selector dan css pada webpage.
scrolling adalah fungsi untuk menscroll bot ketika pengambilan data. biasanya sangat bermanfaat ketika kita menghadapi halaman web yang panjang.
Sebelum kita memahami website kita harus memahami istilah-istilah web scraping sebagai berikut:
Selector adalah sebuah bagian web yang digunakan oleh bot seperti Selenium untuk menemukan bagian -bagian pada web. seperti gambar, tulisan, tombol, dan sebagainya.
CSS adalah sebuah bagian yang digunakan untuk menemukan elemen tertentu pada halaman web. web developer mennggunakan CSS untuk memberikan gaya pada halaman web seperti warna, besar dan lebar gambar, bentuk tombol, dan berbagai fungsi lainnya. biasanya CSS digunakan untuk mendeteksi sebuah elemen pada web.
XPath meurpakan bagian selector untuk menemukan elemen tertentu pada halaman web xpath sebagai alternatif untuk memahami elemen pada web. Xpath memiliki bentuk syntax yang lebih fleksibel jika dibandingkan dengan CSS. Sehingga lebih umum digunakan untuk mencari elemen web yang tidak bisa dicari oleh selector CSS.
Membuat Percobaan satu variabel
sebelum melakukan scriping kita harus memahami dulu selector, xpath yang ada.
cara untuk memahami dengan melakukan percobaansatu persatu variabel yang akan diambil.
setelah dipastikan pervariabel diambil berhasil, maka kita perlu melakukan pengulangan perintah yang sama dibagaian yang berbeda.
Mulai scraping menggunakan looping website
Membuat data frame pada looping website
berikut adalah script google collab full sebagai berikut:
2 thoughts on “Project scraping web menggunakan silenium data ESCO”
Pingback: Konversi Data PDF Panjang Ke CSV -
Pingback: Cara mendapatkan Data Dana Desa Tingkat desa