Zašto ne treba parsirati (X)HTML regexom - Strana 2

Marko Medojevic · 17. 04. 2012.

Skoro sam imao situaciju da sam za RSS feed dobijao nevalidan XML. Zbog toga sam imao problem sa korišćenjem tih podataka kroz XML bilbioteku, jer je ona tražila validan XML.
Problem sam rešio na sledeći način:

Kôd:

$validMarkup = tidy_repair_string($badMarkup, array(
    'output-xml' => true,
    'input-xml' => true
));

U pitanju je PHP kod i koristi se Tidy PECL ekstenzija.

Nekako mi je ovo bilo mnogo praktičnije, jer mi omogućava da kroz bilbioteku pristupan podacima, za razliku od načina gde bih morao da pravim RegEx bazirani parser.
Kao i što kaže Jeff Atwood:

Citat:

I berate them for not being lazy. You need to be lazy as a programmer. Parsing HTML is a solved problem. You do not need to solve it. You just need to be lazy. Be lazy, use CPAN and use HTML::Sanitizer. It will make your coding easier. It will leave your code more maintainable. You won't have to sit there hand-coding regular expressions. Your code will be more robust. You won't have to bug fix every time the HTML breaks your crappy regex

ivanhoe · 17. 04. 2012.

Ogromna je razlika izmedju RSS feed-a (koji sadrzi samo podatke koji ti trebaju, uredno organizovane), i HTML strane (gde je 99% texta tebi potpuno nebitno). Za RSS feedove i ja koristim XML naravno..

A ta prica kako ces da napises jedan parser i da ga onda koristis na gomili poslova je budalastina, u praksi to ne radi, svaki sajt zahteva customizaciju i skoro svaki redizajn tog sajta u buducnosti ce da zahteva izmenu u kodu. Pricam iz visegodisenjeg iskustva, gomilu poslova smo dobili u proslosti upravo zato sto su "naucnici" rekli klijentima kako je to nemoguce parsirati, jer su pokusavali da napisu jednu skriptu za 10 razlicitih sajtova. Trust me, spajderi se pisu maksimalno specijalizovano, naravno koristeci framework koji jednom napravis. Za sve ostale poslove, one gde generalizacija prolazi, klijent ce da skine neki desktop alat gde kliknes i on ti skine te podatke, nece tebe da placa $30 sat za to...

Razlika se onda svede samo na to da li je tebi lakse da menjas pozive metoda na nekom objektu ili da menjas regexp, ali nesto moras da menjas... i ako je to razlika vredna losijih performansi samo napred, ali onda treba napisati: Ja ne znam bas najbolje regExp, komplikovano mi je i pravim cesto greske, pa mi je brze ovako. A ne da se prodaje prica kako je to "jedini pravi pristup".

Jedini pravi pristup je onaj koji ti za minimalno vremena i kolicinu gnjavaze zavrsi posao svaki put, sve ostalo je hipsterski bull****...

webarto · 17. 04. 2012.

http://framework.zend.com/manual/en/zend.dom.query.html
http://code.google.com/p/phpquery/
http://simplehtmldom.sourceforge.net/ (ovaj je regex based ali mu ništa ne fali)

ivanhoe · 17. 04. 2012.

evo cisto kao ilustracija o cemu pricam, glup primer, zamislite da negde u sred strane ima ovakvih par linkova:

HTML kôd:

<a href="foo">Foo</a>
<a href="bar">Bar</a>
<a href="neki_dinamicki_generisani_link_do_cenovnika">Prices for neki proizvod</a>

Kako preko DOM based parsera dohvatiti link cenovnika? Ili ici redom kroz sve linkove, pa traziti koji ima text koji pocinje sa Prices, sto je ovde ok, ali linkova moze biti milion, ili jos gore resenje traziti treci po redu link (pa onda to pukne cim se malo promeni dizajn). Regexp-om se to dohvata laganica. Sto je jos bitnije, dizajner moze da menja dizajn strane koliko voli (sto ecommerce sajtovi rade cesto zbog sezonskih promocija i sl), dok god je text linka nepromenjen, moj spajder radi kao sat

Ovo je jako uproscena situacija, u realnom poslu treba ispratiti gomilu linkova na strani, pronaci next page linkove, handlovati cesto lose napisan kod gde se u sred strane pojavljuju php greske ili linkovi na sledece strane rezultata koje zapravo ne postoje, menja se dizajn strane od proizvoda do proizvoda, programeri namerno prave fore da sprece parsiranje i sl. Not for the faint-hearted...

EDIT: Da me ne razume neko pogresno, nemam ja nista protiv DOM parsera, za "normalne" primene je to genijalno elegantno resenje ili ako je iz nekog razloga bitna struktura stranice, ali za komercijalne spajdere koji najcesce rade polu-legalne stvare, da ne kazem kradu sadrzaj, akademske prica o "ispravnom" nacinu parsiranja html-a su u najmanju ruku smesne...

Dušan Dželebdžić · 17. 04. 2012.

XPath 2 podržava regexp u upitima. Najbolje od oba sveta, samo još da proradi u PHP-u kako valja

webarto · 17. 04. 2012.

@ivanhoe, mislim da preg_match nije dobro, jer je overkill da se nešto uradi, ili promjeni... možeš sve uraditi sa CSS selektorima (barem ja što sam radio scrapinga)...

Zend Query (nisam testirao)

PHP kôd:


			
    $dom = new Zend_Dom_Query($html);

    $results = $dom->query('a[href*="cenovnik"]');



    foreach ($results as $result)

        echo $result->href;

Simple HTML DOM

PHP kôd:


			
$e = $html->find('a[href*="cenovnik"]', 0);

echo $e->href;



$e = $html->find('a[text^="Prices"]', 0);

echo $e->href, $e->innertext;

[attribute] Matches elements that have the specified attribute.
[attribute=value] Matches elements that have the specified attribute with a certain value.
[attribute!=value] Matches elements that don't have the specified attribute with a certain value.
[attribute^=value] Matches elements that have the specified attribute and it starts with a certain value.
[attribute$=value] Matches elements that have the specified attribute and it ends with a certain value.
[attribute*=value] Matches elements that have the specified attribute and it contains a certain value.

Br@nkoR · 17. 04. 2012.

Citat:

Originalno napisao Dušan Dželebdžić

XPath 2 podržava regexp u upitima. Najbolje od oba sveta, samo još da proradi u PHP-u kako valja

Od PHP 5.3 možeš koristiti PHP funkcije kao XPath funkcije
http://php.net/manual/en/domxpath.re...pfunctions.php

PHP kôd:


			
libxml_use_internal_errors(true);

$html = new DOMDocument();

$html->loadHtml('

<a href="foo">Foo</a>

<a href="bar">Bar</a>

<a href="neki_dinamicki_generisani_link_do_cenovnika">Prices for neki proizvod</a>

');

$xpath = new DOMXPath( $html );

$xpath->registerNamespace('php', 'http://php.net/xpath');

$xpath->registerPHPFunctions();



$cenovnik = $xpath->evaluate("//a[php:functionString('preg_match', '/cenovnik/', @href) = 1]");

// $cenovnik = $xpath->evaluate("//a[@href='neki_dinamicki_generisani_link_do_cenovnika']");

// $cenovnik = $xpath->evaluate("//a[contains(@href,'cenovnik')]");



echo $cenovnik->item(0)->nodeValue . PHP_EOL;

echo $cenovnik->item(0)->getAttribute('href') . PHP_EOL;

ivanhoe · 17. 04. 2012.

@webarto: nemas uvek tako jednostavan href, cesto ti svi linkovi gadjaju jednu te istu skriptu sa milion get parametara od kojih zavisi sta ce prikazati

A i mislim da je sustina price u tome sta je covek navikao da radi. Meni je kineski potpuno necitljiv, ali kinezi ga koriste bez problema. Da li treba reci kako je latinica (ili cirilica) jedini ispravan nacin pisanja slova, jer je laksi za ucenje i pisanje?

Sta hocu da kazem: ljudi prave bauka od regExpa, a to je uzasno korisna stvar, i jednom kad naviknes mozak nije bas toliko necitko koliko izgleda. Samo je caka da si ih dovoljno puta napisao, kao sa svim ostalim...

webarto · 17. 04. 2012.

nemam ja ništa protiv regexa, samo kažem ako se doda i jedan space, ako nije formiran regex dobro (a može ti svašta promaći), pući će, XML parser radi na drugom principu i manje je vjerovatno da će pući... mislim zar nije lakše #div kucati nego <div(.*?)id="div"(.*)>(.*?)</div>, i kako znati da neće dodati space jedan i sve da pukne... plus što moraš nagadjati koji je key ono što tražiš, umjesto $e->text ili tako nešto... ovaj simplehtmldom je par kilobajta i mislim da se bolje osloniti na njega, nego kucati sve ovo...

ivanhoe · 18. 04. 2012.

Slazem se, jeste lakse i kad mozes tako to je skroz ok. Ja sam retko nalazio tako cistu situaciju (doduse, ja sam se spajderima bavio ranije, i to u perlu, pa je mozda sad bolja situacija. Tada (2000-2006) su prakticno svi ecommerc sajtovi imali linkove od po 300+ karaktera sa milion parametara, plus ceste greske u generisanju koda)

A spejsovi i sve ostalo se lako pokrije ako napises dobar RE izraz. I to moze to da se stavi u funkcije tako da ne pises iznova, tipa ja sam imao get_tags(), get_link_by_text(), filter_by_attr() i sl. Samo prosledis funkciji text ili komad patterna koji te zanima, a funkcija brine da sklopi regExp kako treba. Prvi put sam ulozio mozda malkice vise mozganja da napisem dobar regExp koji handluje sve potencijalne probleme, ali posle je jednako jednostavno za upotrebu kao neka gotova klasa, a mnogo fleksibilnije i efikasnije jer nisam ogranicen hijerarhijom stranice i ne punim memoriju kompleksnim strukturama koje mi ne trebaju.

17. 04. 2012.	#12
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	Ogromna je razlika izmedju RSS feed-a (koji sadrzi samo podatke koji ti trebaju, uredno organizovane), i HTML strane (gde je 99% texta tebi potpuno nebitno). Za RSS feedove i ja koristim XML naravno.. A ta prica kako ces da napises jedan parser i da ga onda koristis na gomili poslova je budalastina, u praksi to ne radi, svaki sajt zahteva customizaciju i skoro svaki redizajn tog sajta u buducnosti ce da zahteva izmenu u kodu. Pricam iz visegodisenjeg iskustva, gomilu poslova smo dobili u proslosti upravo zato sto su "naucnici" rekli klijentima kako je to nemoguce parsirati, jer su pokusavali da napisu jednu skriptu za 10 razlicitih sajtova. Trust me, spajderi se pisu maksimalno specijalizovano, naravno koristeci framework koji jednom napravis. Za sve ostale poslove, one gde generalizacija prolazi, klijent ce da skine neki desktop alat gde kliknes i on ti skine te podatke, nece tebe da placa $30 sat za to... Razlika se onda svede samo na to da li je tebi lakse da menjas pozive metoda na nekom objektu ili da menjas regexp, ali nesto moras da menjas... i ako je to razlika vredna losijih performansi samo napred, ali onda treba napisati: Ja ne znam bas najbolje regExp, komplikovano mi je i pravim cesto greske, pa mi je brze ovako. A ne da se prodaje prica kako je to "jedini pravi pristup". Jedini pravi pristup je onaj koji ti za minimalno vremena i kolicinu gnjavaze zavrsi posao svaki put, sve ostalo je hipsterski bull***... __________________ Leadership is the art of getting people to want to do what you know must be done. Poslednja izmena od ivanhoe : 17. 04. 2012. u 02:05.*

17. 04. 2012.	#13
webarto expert Grand Master Datum učlanjenja: 11.04.2010 Poruke: 998 Hvala: 141 959 "Hvala" u 153 poruka	http://framework.zend.com/manual/en/zend.dom.query.html http://code.google.com/p/phpquery/ http://simplehtmldom.sourceforge.net/ (ovaj je regex based ali mu ništa ne fali) __________________ Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting

17. 04. 2012.	#14
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	evo cisto kao ilustracija o cemu pricam, glup primer, zamislite da negde u sred strane ima ovakvih par linkova: HTML kôd: <a href="foo">Foo</a> <a href="bar">Bar</a> <a href="neki_dinamicki_generisani_link_do_cenovnika">Prices for neki proizvod</a> Kako preko DOM based parsera dohvatiti link cenovnika? Ili ici redom kroz sve linkove, pa traziti koji ima text koji pocinje sa Prices, sto je ovde ok, ali linkova moze biti milion, ili jos gore resenje traziti treci po redu link (pa onda to pukne cim se malo promeni dizajn). Regexp-om se to dohvata laganica. Sto je jos bitnije, dizajner moze da menja dizajn strane koliko voli (sto ecommerce sajtovi rade cesto zbog sezonskih promocija i sl), dok god je text linka nepromenjen, moj spajder radi kao sat Ovo je jako uproscena situacija, u realnom poslu treba ispratiti gomilu linkova na strani, pronaci next page linkove, handlovati cesto lose napisan kod gde se u sred strane pojavljuju php greske ili linkovi na sledece strane rezultata koje zapravo ne postoje, menja se dizajn strane od proizvoda do proizvoda, programeri namerno prave fore da sprece parsiranje i sl. Not for the faint-hearted... EDIT: Da me ne razume neko pogresno, nemam ja nista protiv DOM parsera, za "normalne" primene je to genijalno elegantno resenje ili ako je iz nekog razloga bitna struktura stranice, ali za komercijalne spajdere koji najcesce rade polu-legalne stvare, da ne kazem kradu sadrzaj, akademske prica o "ispravnom" nacinu parsiranja html-a su u najmanju ruku smesne... __________________ Leadership is the art of getting people to want to do what you know must be done. Poslednja izmena od ivanhoe : 17. 04. 2012. u 02:36.

17. 04. 2012.	#15
Dušan Dželebdžić Nekad bio ddz Expert Datum učlanjenja: 09.06.2005 Poruke: 590 Hvala: 88 402 "Hvala" u 51 poruka	XPath 2 podržava regexp u upitima. Najbolje od oba sveta, samo još da proradi u PHP-u kako valja __________________ Converting dead links into hyperlinks since 1996.

17. 04. 2012.	#16
webarto expert Grand Master Datum učlanjenja: 11.04.2010 Poruke: 998 Hvala: 141 959 "Hvala" u 153 poruka	@ivanhoe, mislim da preg_match nije dobro, jer je overkill da se nešto uradi, ili promjeni... možeš sve uraditi sa CSS selektorima (barem ja što sam radio scrapinga)... Zend Query (nisam testirao) PHP kôd: `$dom = new Zend_Dom_Query($html); $results = $dom->query('a[href="cenovnik"]'); foreach ($results as $result) echo $result->href;` Simple HTML DOM PHP kôd: `$e = $html->find('a[href="cenovnik"]', 0); echo $e->href; $e = $html->find('a[text^="Prices"]', 0); echo $e->href, $e->innertext;` [attribute] Matches elements that have the specified attribute. [attribute=value] Matches elements that have the specified attribute with a certain value. [attribute!=value] Matches elements that don't have the specified attribute with a certain value. [attribute^=value] Matches elements that have the specified attribute and it starts with a certain value. [attribute$=value] Matches elements that have the specified attribute and it ends with a certain value. *[attribute=value]** Matches elements that have the specified attribute and it contains a certain value. __________________ Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting

18. 04. 2012.	#20
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	Slazem se, jeste lakse i kad mozes tako to je skroz ok. Ja sam retko nalazio tako cistu situaciju (doduse, ja sam se spajderima bavio ranije, i to u perlu, pa je mozda sad bolja situacija. Tada (2000-2006) su prakticno svi ecommerc sajtovi imali linkove od po 300+ karaktera sa milion parametara, plus ceste greske u generisanju koda) A spejsovi i sve ostalo se lako pokrije ako napises dobar RE izraz. I to moze to da se stavi u funkcije tako da ne pises iznova, tipa ja sam imao get_tags(), get_link_by_text(), filter_by_attr() i sl. Samo prosledis funkciji text ili komad patterna koji te zanima, a funkcija brine da sklopi regExp kako treba. Prvi put sam ulozio mozda malkice vise mozganja da napisem dobar regExp koji handluje sve potencijalne probleme, ali posle je jednako jednostavno za upotrebu kao neka gotova klasa, a mnogo fleksibilnije i efikasnije jer nisam ogranicen hijerarhijom stranice i ne punim memoriju kompleksnim strukturama koje mi ne trebaju. __________________ Leadership is the art of getting people to want to do what you know must be done.