Scrap situs dengan PHP Simple HTML DOM Parser

Dengan PHP Simple HTML DOM parser maka akan didapatkan tag yang dicari maka konten situs akan di-ekstrak per-baris alias di-scrap.

PHP HTML DOM parser berfungsi pada PHP 5+ yang digunakan untuk memanipulasi halaman HTML dengan sangat mudah. Cara kerjanya sangat sederhana karena fungsi ini hanya mencari tag dari suatu halaman HTML meskipun halaman HTML tersebut tidak valid. Setelah mendapatkan tag yang dicari maka konten situs akan di-ekstrak per-baris alias di-scrap.

Contoh Penggunaan PHP Simple HTML DOM Parser

Misalkan kita akan mengekstrak konten dari situs Yahoo Indonesia dan kita fokuskan pada tab konten “Berita Utama”.

Situs Yahoo Indonesia (Berita Utama)
Situs Yahoo Indonesia (Berita Utama)

Maka kode parsing PHP-nya seperti ini:

<?php
include 'simple_html_dom.php';
$url = "http://id.yahoo.com";
$html = file_get_html($url);
if (method_exists($html,"find")) {
echo "<ul>";
foreach($html->find('div[class=y-tabpanels] a[class=y-fp-pg-controls]') as $element ){
echo "<li>".$element ->plaintext."</li>";
}
echo "</ul>";
}else{}
?>

Deskripsi:

  • simple_html_dom.php adalah file Simple HTML DOM Parser yang Anda bisa donwload di simplehtmldom.sourceforge.net. Simpan file tersebut di direktori situs Anda.
  • $url adalah url situs yang akan di parsing halaman HTML-nya.
  • find(‘div[class=y-tabpanels] a[class=y-fp-pg-controls]‘) adalah tag elemen dari situs.
  • $element ->plaintext adalah bentuk elemen html yang akan dihasilkan.

Hasil parsing dari kode di atas seperti ini:

Hasil Parsing Simple HTML DOM
Hasil Parsing Simple HTML DOM

Kode referensi PHP simple HTML DOM bisa didapatkan di simplehtmldom.sourceforge.net dan untuk mengambil konten dari situs lain, mintalah ijin terlebih dahulu dari sang pemilik situs. :)

Author: Jevuska

Rachmanuddin Chair Yahya a.k.a Jevuska is the founder of Jevuska.Com, a qualified web about offering medical articles, blogging, tips, and tutorial of WordPress. Having written for Jevuska since 2007.

3 thoughts on “Scrap situs dengan PHP Simple HTML DOM Parser”

Leave a Reply

Your email address will not be published. Required fields are marked *

Use tag [php] to add code, e.g. [php]<?php echo $var; ?>[/php]