Mengambil content website dengan Simple Html Dom

15:06 Unknown 0 Comments

Assalamualaikum...
Dalam post kali ini saya akan membuat tulisan tentang Simple HTML Dom. Ini adalam sebuah library PHP yang membantu kita untuk Scraping/Grabing kontent dari sebuah website lain.

Scarping
Adalah proses penggalian sejumlah besar informasi untuk sebuah situs web dalam bentuk html.
Untuk mengikuti tutorial ini kamu paling tidak paham

a. Menguasai PHP (dasar)
b. Html (dasar)
c. CSS (dasar)
d. menggunakan browser Chrome (optional biar enak ngikutin step2 nya nanti).

di sini saya akan menjelaskan cara mengambil text/content dari sebuah website ( BMKG ).

1. Download Simple HTML Dom dari sourceforge.
2. Ektrak file simple_html_dom.php ke folder.
3. Buat file baru dengan nama index.php.

buka index.php
4. Panggil library simple html praser yang sudah kita ektrak dalam satu folder dengan index tadi

index.php:
include('simple_html_dom.php');

5. dalam kasus ini saya akan mengambil text dari website BMKG link :
Text yang akan kita ambil

http://www.bmkg.go.id/BMKG_Pusat/Informasi_Cuaca/Prakiraan_Cuaca/Prakiraan_Cuaca_Indonesia.bmkg

6. Mengetahui element text/content yang mau kita ambil tersebut menggunakan CSS class/id apa.
contoh 1:
<div class="pc-mode"> ini link Pc-mode </div>
berarti element tersebut menggunakan class .pc-mode.

contoh 2:
<div class="pc-mode gambar"> ini link Pc-mode </div>
berarti element tersebut menggunakan class .pc-mode atau .gambar. (memakai 2 class bersama)

7. Buka link yang akan kita ambil text nya.

pada browser chrome : klik kanan - inspect element 

ini adalah hal terpenting dalam tutorial ini (pengambilan class/id), jika kita salah menentukan element nya maka tidak akan muncul hasilnya

pada gambar di atas dapat di lihat class="row(spasi)show-grid(spasi)ft12" . dalam penggunaan elementnya kita dapat menulis .ft12 a yang artinya kita akan mengambil sebuah element di dalam class ft12 yang memiliki tag HTML a (link).

index.php :
//panggil library simple dom parser
include('simple_html_dom.php');

// Url yang akan kita ambil text/content nya
$html = file_get_html('http://www.bmkg.go.id/BMKG_Pusat/Informasi_Cuaca/Prakiraan_Cuaca/Prakiraan_Cuaca_Indonesia.bmkg');

//elemet text yang mau kita ambil
$wilayah = $html->find('.row.show-grid.ft12 a');

// kita looping hasilnya
foreach ($wilayah as $key => $value) {
//fungsi plaintext : mengambil text 
echo $value->plaintext;
echo "<br>";
}
hasil :


untuk post kali ini cukup sekian dulu. Untuk fungsi simple dom parser bisa di baca di web nya. Di post selanjutnya akan saya share cara scraping website lainnya. Jika ada kesulitan bisa tinggal kan koment di bawah :D

0 comments:

Coment dari kamu merupakan semangat untukku terus ada ... ^_^