Project scraping web menggunakan silenium data ESCO

Projek ini didanai oleh BAPPENAS 2020, pengambilan data pada tanggal 28 september 2020.

adapun web yang discraping adalah https://ec.europa.eu/esco/portal/occupation

Data terdiri dari 6 variabel yaitu kode, jabatan, deskripsi, skill dan link.

Metode yang digunakan adalah scraping data menggunakan silenium, data tersebut berbentuk non strukter berntuk web kemudian diubah menjadi data yang berbentuk terstruktur

silenium adalah satu satu bot yang dapat mengunjungi web secara otomatis. silenium biasanya dipakai untuk web scriping dan aplikasi bot lainnya.

silenium di google collab telah tersedia secara praktis, sehingga kita akan praktis menggunakan google collab tanpa harus menggistall python di laptop kita.

Baca Juga:

Scrapping Website Sinta Jurnal

Untuk melengkapi bot silenium maka bot dibekali dengan beberapa tools/ library yang ada. sebagai berikut:

fungsi lain untuk perbekalan scraping adalah screenshoot dan scroling

screenshoot adalah fungsi yang bertujuan untuk melihat dan memantu pergerakan silenium. fungsi ini sangat bermanfaat ketika mengunjungi halaman yang ternyata terdapat eror. biasanya eror ini terjadi karena kesalahan pengambilan pach , selector dan css pada webpage.

scrolling adalah fungsi untuk menscroll bot ketika pengambilan data. biasanya sangat bermanfaat ketika kita menghadapi halaman web yang panjang.

 

Sebelum kita memahami website kita harus memahami istilah-istilah web scraping sebagai berikut:

Selector adalah sebuah bagian web yang digunakan oleh bot seperti Selenium  untuk menemukan bagian -bagian pada web. seperti gambar, tulisan, tombol, dan sebagainya. 

CSS adalah sebuah bagian yang digunakan untuk menemukan elemen tertentu pada halaman web. web developer  mennggunakan CSS   untuk memberikan gaya  pada halaman web seperti warna, besar dan lebar gambar, bentuk tombol, dan berbagai fungsi lainnya. biasanya CSS digunakan untuk mendeteksi sebuah elemen pada web.

XPath meurpakan bagian selector   untuk menemukan elemen tertentu pada halaman web xpath sebagai alternatif untuk memahami elemen pada web. Xpath memiliki bentuk syntax yang lebih fleksibel jika dibandingkan dengan CSS. Sehingga lebih umum digunakan untuk mencari elemen web yang tidak bisa dicari oleh selector CSS.

 

Membuat Percobaan satu variabel

sebelum melakukan scriping kita harus memahami dulu selector, xpath yang ada.

cara untuk memahami dengan melakukan percobaansatu persatu variabel yang akan diambil.

setelah dipastikan pervariabel diambil berhasil, maka kita perlu melakukan pengulangan perintah yang sama dibagaian yang berbeda.

Mulai scraping menggunakan looping website

Membuat data frame pada looping website

berikut adalah script google collab full sebagai berikut:

2 thoughts on “Project scraping web menggunakan silenium data ESCO”

  1. Pingback: Konversi Data PDF Panjang Ke CSV -

  2. Pingback: Cara mendapatkan Data Dana Desa Tingkat desa

Leave a Comment

Scroll to Top