Assalamualaikum...
Dalam post kali ini saya akan membuat tulisan tentang
Simple HTML Dom. Ini adalam sebuah library PHP yang membantu kita untuk Scraping/Grabing kontent dari sebuah website lain.
Scarping
Adalah proses penggalian sejumlah besar informasi untuk sebuah situs web dalam bentuk html.
Untuk mengikuti tutorial ini kamu paling tidak paham
a. Menguasai PHP (dasar)
b. Html (dasar)
c. CSS (dasar)
d. menggunakan browser Chrome (optional biar enak ngikutin step2 nya nanti).
di sini saya akan menjelaskan cara mengambil text/content dari sebuah website (
BMKG ).
1. Download Simple HTML Dom dari
sourceforge.
2. Ektrak file
simple_html_dom.php ke folder.
3. Buat file baru dengan nama index.php.
buka index.php
4. Panggil library simple html praser yang sudah kita ektrak dalam satu folder dengan index tadi
index.php:
include('simple_html_dom.php');
5. dalam kasus ini saya akan mengambil text dari website BMKG link :
|
Text yang akan kita ambil |
http://www.bmkg.go.id/BMKG_Pusat/Informasi_Cuaca/Prakiraan_Cuaca/Prakiraan_Cuaca_Indonesia.bmkg
6. Mengetahui element text/content yang mau kita ambil tersebut menggunakan CSS class/id apa.
contoh 1:
<div class="pc-mode">
ini link Pc-mode </div>
berarti element tersebut menggunakan class .
pc-mode.
contoh 2:
<div class="pc-mode gambar"> ini link Pc-mode </div>
berarti element tersebut menggunakan class .
pc-mode atau .
gambar. (memakai 2 class bersama)
7. Buka link yang akan kita ambil text nya.
|
pada browser chrome : klik kanan - inspect element |
ini adalah hal
terpenting dalam tutorial ini (pengambilan class/id), jika kita salah menentukan element nya maka tidak akan muncul hasilnya
pada gambar di atas dapat di lihat class="row(spasi)show-grid(spasi)ft12" . dalam penggunaan elementnya kita dapat menulis
.ft12 a yang artinya kita akan mengambil sebuah element di dalam class
ft12 yang memiliki tag HTML
a (link).
index.php :
//panggil library simple dom parser
include('simple_html_dom.php');
// Url yang akan kita ambil text/content nya
$html = file_get_html('http://www.bmkg.go.id/BMKG_Pusat/Informasi_Cuaca/Prakiraan_Cuaca/Prakiraan_Cuaca_Indonesia.bmkg');
//elemet text yang mau kita ambil
$wilayah = $html->find('.row.show-grid.ft12 a');
// kita looping hasilnya
foreach ($wilayah as $key => $value) {
//fungsi plaintext : mengambil text
echo $value->plaintext;
echo "<br>";
}
hasil :
untuk post kali ini cukup sekian dulu. Untuk fungsi simple dom parser bisa di baca di
web nya. Di post selanjutnya akan saya share cara scraping website lainnya. Jika ada kesulitan bisa tinggal kan koment di bawah :D