Project scraping web menggunakan silenium data Industry Otomotif

Website adalah salah satu sumber informasi yang sangat berguna bagi banyak orang. Namun, terkadang kita ingin mengambil data dari website tertentu tanpa harus mengunjungi halaman per halaman secara manual. Misalnya, kita ingin mengambil data tentang industri di Minahasa (GIAMM) yang terdaftar di website http://www.giamm.or.id/. Bagaimana caranya?

Salah satu cara yang bisa kita lakukan adalah dengan menggunakan teknik web scraping. Web scraping adalah teknik untuk melakukan ekstraksi data dan informasi dari suatu website kemudian menyimpannya dalam format tertentu1. Teknik ini bisa mempermudah dalam pencarian data, analisis data dan penentuan strategi untuk keperluan bisnis atau pribadi.

Ada dua teknik web scraping yang umum digunakan, yaitu secara manual dan otomatis. Teknik web scraping manual dilakukan dengan cara men-copy dan paste data dari website secara manual2. Teknik ini paling efektif dan akurat dari segi data yang ditampilkan, tetapi membutuhkan waktu yang lama dan tenaga yang banyak.

Teknik web scraping otomatis dilakukan dengan menggunakan tools atau program yang bisa mengambil data dari website secara otomatis1. Teknik ini lebih cepat dan mudah, tetapi membutuhkan pengetahuan tentang bahasa pemrograman dan tools yang digunakan. Salah satu tools yang populer untuk web scraping otomatis adalah Python.

Python adalah bahasa pemrograman yang mudah dipelajari dan memiliki banyak library yang mendukung web scraping3. Salah satu library yang sering digunakan adalah BeautifulSoup. BeautifulSoup adalah library Python yang bisa digunakan untuk mengurai (parse) dokumen HTML atau XML4. Dengan BeautifulSoup, kita bisa menemukan dan mengambil data dari elemen-elemen HTML yang kita inginkan.

Scraping Data dengana Metode BeautifulSoup

Berikut adalah langkah-langkah untuk melakukan web scraping dengan Python dan BeautifulSoup:

  1. Install Python dan library BeautifulSoup di komputer Anda. Anda bisa mengikuti panduan instalasi di situs resmi Python (https://www.python.org/) dan BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/).
  2. Import library requests dan BeautifulSoup di program Python Anda. Requests adalah library Python yang bisa digunakan untuk mengirim permintaan HTTP ke website4. Contoh kode:
import requests
from bs4 import BeautifulSoup
  1. Kirim permintaan HTTP ke website yang ingin Anda scrap dengan menggunakan fungsi requests.get(). Simpan hasilnya dalam variabel response. Contoh kode:
response = requests.get("http://www.giamm.or.id/")
  1. Cek status kode dari permintaan HTTP dengan menggunakan atribut response.status_code. Status kode 200 berarti permintaan berhasil, sedangkan status kode lain berarti ada kesalahan4. Contoh kode:
if response.status_code == 200:
    print("Permintaan berhasil")
else:
    print("Permintaan gagal")
  1. Ubah konten HTML dari response menjadi objek BeautifulSoup dengan menggunakan fungsi BeautifulSoup(). Simpan hasilnya dalam variabel soup. Contoh kode:
soup = BeautifulSoup(response.content, "html.parser")
  1. Cari elemen HTML yang ingin Anda ambil datanya dengan menggunakan metode soup.find() atau soup.find_all(). Metode soup.find() akan mengembalikan elemen HTML pertama yang cocok dengan kriteria yang diberikan, sedangkan metode soup.find_all() akan mengembalikan semua elemen HTML yang cocok dalam bentuk list4. Contoh kode:
# Mencari elemen HTML <table> dengan atribut class="table table-striped"
table = soup.find("table", class_="table table-striped")

# Mencari semua elemen HTML <tr> di dalam table
rows = table.find_all("tr")


ut lain dari elemen HTML tersebut dengan menggunakan atribut .text atau .get(). Contoh kode:

```python
# Mengambil teks dari setiap elemen <tr>
for row in rows:
    print(row.text)

# Mengambil atribut href dari setiap elemen <a>
for link in soup.find_all("a"):
    print(link.get("href"))
  1. Simpan data yang Anda ambil dalam format yang Anda inginkan, misalnya CSV, JSON, atau Excel. Anda bisa menggunakan library Python seperti csv, json, atau pandas untuk membantu Anda menyimpan data. Contoh kode:
# Menyimpan data dalam format CSV dengan library csv
import csv

with open("data_giamm.csv", "w") as file:
    writer = csv.writer(file)
    for row in rows:
        writer.writerow(row.text.split())

# Menyimpan data dalam format JSON dengan library json
import json

data = []
for row in rows:
    data.append(row.text.split())

with open("data_giamm.json", "w") as file:
    json.dump(data, file)

# Menyimpan data dalam format Excel dengan library pandas
import pandas as pd

data = []
for row in rows:
    data.append(row.text.split())

df = pd.DataFrame(data)
df.to_excel("data_giamm.xlsx")
  1. Selesai! Anda sudah berhasil melakukan web scraping dengan Python dan BeautifulSoup.

Itulah cara scraping website http://www.giamm.or.id/ dengan Python dan BeautifulSoup. Dengan teknik ini, Anda bisa mengambil data dari website apapun yang Anda inginkan, asalkan tidak melanggar etika dan aturan web scraping1. Selamat mencoba!

Scraping Data menggunakan metode Selenium

Kesimpulan

Web scraping adalah teknik untuk mengambil data dari website dan menyimpannya dalam format tertentu. Web scraping bisa dilakukan secara manual atau otomatis. Salah satu cara untuk melakukan web scraping otomatis adalah dengan menggunakan Python dan BeautifulSoup. Python adalah bahasa pemrograman yang mudah dipelajari dan memiliki banyak library yang mendukung web scraping. BeautifulSoup adalah library Python yang bisa digunakan untuk mengurai dokumen HTML atau XML. Dengan Python dan BeautifulSoup, kita bisa mengambil data dari elemen-elemen HTML yang kita inginkan dan menyimpannya dalam format CSV, JSON, atau Excel.

 

Leave a Comment

Scroll to Top