Apa Itu Web Scraping
Web Scraping adalah teknik untuk mengekstraksi data dari World Wide Web (WWW) dan menyimpannya ke file sistem atau basis data untuk dijadikan analisis data. Web Scraping dapat dilakukan baik secara manual oleh seorang pengguna atau secara otomatis oleh bot atau crawler web. Proses Web Scraping dari Internet dapat dibagi menjadi dua langkah berurutan, yaitu mengakuisisi sumber daya web dan kemudian mengekstraksi informasi yang diinginkan dari data yang diperoleh. Secara khusus, program Web Scraping dimulai dengan meminta HTTP untuk memperoleh sumber daya dari yang ditargetkan oleh situs web. Permintaan ini dapat diformat kedalam URL yang berisi permintaan GET atau HTTP yang berisi POST.
Setelah permintaan berhasil diterima dan diproses oleh situs web yang ditargetkan, sumber daya yang diminta akan diambil dari situs web dan kemudian dikirim kembali ke program Web Scraping. Sumber daya ini bisa dalam berbagai format, seperti halaman web yang dibangun dengan HTML, XML atau JSON, atau data multimedia seperti gambar, audio, atau video. Terdapat dua modul penting dari Web Scraping – modul untuk menulis permintaan HTTP, seperti Urllib2 atau selenium dan satu lagi untuk parsing dan mengekstraksi informasi dari kode HTML mentah, seperti BeautifulSup atau Pyquery. Manfaat web scraping ialah agar informasi yang dikeruk lebih terfokus sehingga memudahkan dalam melakukan pencarian sesuatu. Aplikasi Web Scraping hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi.
Manfaat Web Scraping
Mendapatkan Leads
Dalam berburu leads untuk bisnis baru, anda dapat melakukan pendekatan kepada follower akun media sosial kompetitor. Bahkan, bisa jadi mereka memiliki minat dengan produk atau layanan anda. Web scraping berguna untuk memudahkan proses ini. Anda dapat menyalin daftar follower masing-masing kompetitor dan menyalin alamat email mereka. Selain itu, data tersebut seperti demografi pengikut dapat digunakan untuk bahan segmentasi.
Mendalami Kebutuhan Konsumen dari Kompetitor
Sebagai seorang pemilik usaha, pemahaman mendalam tentang kebutuhan konsumen menjadi sebuah kewajiban. Selain itu, anda juga harus mengetahui tren terbaru apa yang disukai konsumen untuk meningkatan layanan atau menciptakan produk yang solutif. Anda bisa membaca ulasan dan komentar konsumen tentang produk atau layanan kompetitormu. Dengan web scraping proses pendokumentasian data tersebut akan lebih mudah dan cepat.
Optimasi Harga Produk maupun Layanan
Salah satu hal yang cukup sulit adalah menentukan harga bagi layanan atau produk. Terdapat banyak sekali faktor yang perlu diperhatikan seperti biaya produksi, SDM, brand positioning, dan harga yang ditawarkan oleh kompetitor. Web scraping bisa membantu untuk melakukan survey harga pasar, sehingga anda dapat menyesuaikan harga yang ada di pasar.
Mencari Informasi
Saat kamu ingin memastikan kredibilitas pebisnis lain yang akan bekerjasama atau memantau strategi yang digunakan kompetitor-mu dengan melakukan investigasi melalui web scraping. Selain itu, anda juga bisa melakukan brand monitoring, untuk meningkatkan bisnis.
Memantau Berita dan Konten
Metode branding yang cukup mudah adalah mengundang media pada saat kamu akan meluncurkan produk baru. Media yang diundang akan membuat ulasan mengenai acara dan produk yang diluncurkan. Untuk memantau perkembangan liputan media itu, anda dapat menggunakan web scraping.
Teknik Web Scraping
Menyalin Data Manual
Teknik pertama dari web scraping adalah dengan menyalin data manual. Teknik ini dilakukan dengan cara menyalin data laman secara manual. Proses penyalinan ini dilakukan secara satu per satu sehingga membutuhkan waktu yang lebih lama. Namun, metode ini terbilang efektif dari segi pencarian data sehingga anda lebih mengetahui secara detail informasi apa saja yang ingin anda saling dari suatu laman. Proses ini menghasilkan web scraping yang sangat akurat. Teknik ini hanya disarankan jika jumlah website atau blog yang akan disaring berjumlah terbatas.
Regular Expression
Regular expression merupakan baris kode yang dipakai dalam algoritma pencarian yang berfungsi untuk menemukan data spesifik sebuah file. Pada konteksnya, file yang dimaksud merupakan file yang dapat digunakan untuk menunjang sebuah website. Kelebihannya, syntax dalam berbagai bahasa pemrograman akan konsisten. Anda jga dapat menggunakan teknik ini untuk melihat apakah website anda telah aman dari scraping.
Parsing HTML
Teknik ini pada umumnya dilakukan menggunakan JavaScript yang menargetkan halaman HTML linear dan bercabang. Teknik ini lebih efisien dalam mengidentifkasi script HTML dari website yang akan digunakan untuk mengekstrasi teks, tautan dan data. Dengan menggunakan teknik ini, anda dapat melakukan scraping pada halaman website yang bersifat dinamis dan juga membutuhkan waktu yang cepat untuk mendapatkan data dalam jumlah yang besar. Parsing HTML dapat dicegah dengan menggunakan proteksi website. Perlu anda ketahui bahwa dengan menggunakan teknik ini anda dapat diblokir oleh suatu situs jika terlalu sering menggunakan teknik ini.
Parsing DOM
DOM atau Document Object Model merupakan representasi struktur dari suatu halaman website yang ditulis dengan XML dan HTML. saat melakukan parsing HTML, maka DOM dari halaman yang ingin di ekstrak dimuat terlebih dahulu. Analisa DOM dapat dimanfaatkan sebagai alternatif untuk melakukan web scraping terhadap halaman situs dinamis jika parsing HTML tidak berhasil. Metode ini juga dapat dibantu menggunakan regular expression.
XPath
XPath merupakan bahasa query yang digunakan untuk memilih node dari struktur file XML dan HTML. dalam penerapannya tak jauh berbeda dengan analisa DOM yang bertujuan untuk mencari data dari struktur file penunjang halaman. XPath juga dapat dimafaatkan untuk navigasi struktur dokumen dari dokumen XML dalam bentuk tree structure dan memilih nodes yang berasal dari berbagai parameter.v Teknik ini bisa menjadi alternatif kalau kamu merasa analisa DOM kurang efektif.
Google Sheet
Google sheet merupakan salah satu aplikasi milik google yang digunakan untuk membuat spreadsheet. Namun, selain digunakan untuk mengolah data, aplikasi ini juga dapat digunakan untuk melakukan web scraping. Selain google sheet, kamu juga memerlukan browser yang memiliki fitur inspect element. Setelah itu, salin expression XPath dari elemen halaman website yang datanya akan di salin ke dalam command IMPORT XML yang ada di google sheet.
Text Pattern Matching
Teknik ini menggunakan UNIX grep command dan bahasa pemrograman seperti Python dengan mencocokan ekspresi regular.
Cara Membuat Web Scraping
Create Scraping Template
Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML yang mengapit informasi yang akan diambil.
Explore Site Navigation
Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat.
Automate Navigation and Extraction
Berdasarkan informasi yang didapat pada langkah 1 dan 2 diatas, aplikasi web scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang ditentukan.
Extracted Data and Package History
Informasi yang didapat dari langkah 3 disimpan dalam tabel database.
Peran Web Scraping dalam Bisnis
- Memantau harga
- Mencari informasi dari perusahaan lain
- Riset pasar
- Memantau berita dan konten
- Mendapatkan lead
Web scraping memiliki banyak manfaat di berbagai bidang khususnya di bidang bisnis. Dalam prakteknya hal ini berfungsi untuk mendapatkan file ataupun data dari berbagai sumber yang nantinya akan dianalisis dan dimanfaatkan untuk kegiatan bisnis. Prosesnya dapat dilakukan menggunakan beberapa teknik.