DevProTalk - Zašto ne treba parsirati (X)HTML regexom

DevProTalk (http://www.devprotalk.com/index.php)

- Regular expression i htaccess (http://www.devprotalk.com/forumdisplay.php?f=41)

- - Zašto ne treba parsirati (X)HTML regexom (http://www.devprotalk.com/showthread.php?t=10871)

Dušan Dželebdžić

14. 03. 2012. 23:08

Zašto ne treba parsirati (X)HTML regexom

Jedan probao, pa odlepio...
http://stackoverflow.com/a/1732454

Citat:

You can't parse [X]HTML with regex. Because HTML can't be parsed by regex. Regex is not a tool that can be used to correctly parse HTML. As I have answered in HTML-and-regex questions here so many times before, the use of regex will not allow you to consume HTML. Regular expressions are a tool that is insufficiently sophisticated to understand the constructs employed by HTML. HTML is not a regular language and hence cannot be parsed by regular expressions. Regex queries are not equipped to break down HTML into its meaningful parts. so many times but it is not getting to me. Even enhanced irregular regular expressions as used by Perl are not up to the task of parsing HTML. You will never make me crack. HTML is a language of sufficient complexity that it cannot be parsed by regular expressions. Even Jon Skeet cannot parse HTML using regular expressions. Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. Parsing HTML with regex summons tainted souls into the realm of the living. HTML and regex go together like love, marriage, and ritual infanticide. The <center> cannot hold it is too late. The force of regex and HTML together in the same conceptual space will destroy your mind like so much watery putty. If you parse HTML with regex you are giving in to Them and their blasphemous ways which doom us all to inhuman toil for the One whose Name cannot be expressed in the Basic Multilingual Plane, he comes. HTML-plus-regexp will liquify the nerves of the sentient whilst you observe, your psyche withering in the onslaught of horror. Rege̿̔̉x-based HTML parsers are the cancer that is killing StackOverflow it is too late it is too late we cannot be saved the trangession of a chi͡ld ensures regex will consume all living tissue (except for HTML which it cannot, as previously prophesied) dear lord help us how can anyone survive this scourge using regex to parse HTML has doomed humanity to an eternity of dread torture and security holes using regex as a tool to process HTML establishes a breach between this world and the dread realm of c͒ͪo͛ͫrrupt entities (like SGML entities, but more corrupt) a mere glimpse of the world of regex parsers for HTML will instantly transport a programmer's consciousness into a world of ceaseless screaming, he comes, the pestilent slithy regex-infection will devour your HTML parser, application and existence for all time like Visual Basic only worse he comes he comes do not fight he com̡e̶s, ̕h̵is un̨ho͞ly radiańcé destro҉ying all enli̍̈́̂̈́ghtenment, HTML tags lea͠ki̧n͘g fr̶ǫm ̡yo͟ur eye͢s̸ ̛l̕ik͏e liquid pain, the song of re̸gular expression parsing will extinguish the voices of mortal man from the sphere I can see it can you see ̲͚̖͔̙î̩́t̲͎̩̱͔́̋̀ it is beautiful the final snuffing of the lies of Man ALL IS LOŚ͖̩͇̗̪̏̈́T ALL IS LOST the pon̷y he comes he c̶̮omes he comes the ichor permeates all MY FACE MY FACE ᵒh god no NO NOO̼OO NΘ stop the an*̶͑̾̾̅ͫ͏̙̤g͇̫͛͆̾ͫ̑͆l͖͉̗̩̳̟̍ͫͥͨe̠̅s ͎a̧͈͖r̽̾̈́͒͑e not rè̑ͧ̌aͨl̘̝̙̃ͤ͂̾̆ ZA̡͊͠͝LGΌ ISͮ̂҉̯͈͕̹̘̱ TO͇̹̺ͅƝ̴ȳ̳ TH̘Ë͖́̉ ͠P̯͍̭O̚N̐Y̡ H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S ̨̥̫͎̭ͯ̿̔̀ͅ

mileusna

15. 03. 2012. 00:19

a u komentarima :)

Citat:

Chuck Norris can parse HTML with regex. – THX-1138 Nov 14 '09 at 0:03

webarto

15. 03. 2012. 01:59

http://www.codinghorror.com/blog/200...hulhu-way.html puk'o je bobince ima već 2 godine :D

ivanhoe

15. 03. 2012. 06:26

funny, ali to je potpuni bull****... html ne treba parsirati regexp-om:
a) ako ne znas makar priblizno kako izgleda doticni HTML
b) ako ne znas da koristis regexp-e

ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama.. cim probas tako da pocupas podatke iz nekog e-shopa ili CMS-a i krenes da naleces na random tagove koje je neko slucajno pesjtvovao u sred texta, you're screwed with XML...

jablan

15. 03. 2012. 07:54

Citat:

Originalno napisao ivanhoe (Napišite 105772)

jer to ne radi uopste sem sa staticnim i 100% validnim stranama..

Umm...

http://nokogiri.org/tutorials/ensuri...ed_markup.html

akubra

15. 03. 2012. 08:02

Za dobar HTML parser su bitne samo 2 stvari: da radi posao i da moze da se napravi za sto krace vreme. U vecini prakticnih situacija regexp to radi odlicno.

djipko

15. 03. 2012. 08:42

Da se nadovezem na Jablana - beautiful soup (http://www.crummy.com/software/BeautifulSoup/) za Python ce ti isto isparsirati stagod mu das, makar proslo pored validnosti nije. Siguran sam da ima nesto slicnog stepena robustnosti i za PHP i ostale...

Dušan Dželebdžić

15. 03. 2012. 12:27

Citat:

Originalno napisao ivanhoe (Napišite 105772)

ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama..

Juče sam tek malo ozbiljnije pogledao dokumentaciju za ovo (juče mi je prvi put zatrebalo :)), ali čini mi se da je u PHP-u to fino rešeno. Domdocument ima metod loadXML koji očekuje savršeno formatiran kôd, ali tu je i loadHTML koji radi isto, samo ne paniči ako fali neki tag.

http://www.php.net/manual/en/domdocument.loadhtml.php

Citat:

The function parses the HTML contained in the string source. Unlike loading XML, HTML does not have to be well-formed to load. This function may also be called statically to load and create a DOMDocument object. The static invocation may be used when no DOMDocument properties need to be set prior to loading.

ivanhoe

15. 03. 2012. 13:08

Moram da priznam da sam ja radio scrapping podataka samo iz perla i to zadnji put pre par godina, tako da mozda sad i postoji neko efikasno resenje, tada definitivno nije postojalo nista sto moze da se nosi sa custom napisanim regExp-om po pitanju brzine i efikasnosti...

Kad se spajderuju podaci obicno ti je potrebno samo par cifara od cele HTML strane, parsiranje svega toga u DOM da bi dohvatio par celija iz neke tabele je jako neefikasan pristup IMHO... i ne samo neefikasan, nego i nepotreban, zasto bi to radio? A u realnom slucaju kad sve to pustis u X procesa koji treba da obrade katalog od 500-600 hiljada artikala u nekom razumnom roku, onda memorija i brzina postaju vrlo velika stavka...

mileusna

15. 03. 2012. 13:36

Ja verujem da postoje bolja rešenja, ali navika je čudo, tako da ja i dalje radim putem RegExp.

Marko Medojevic

17. 04. 2012. 00:03

Skoro sam imao situaciju da sam za RSS feed dobijao nevalidan XML. Zbog toga sam imao problem sa korišćenjem tih podataka kroz XML bilbioteku, jer je ona tražila validan XML.
Problem sam rešio na sledeći način:

Kôd:

$validMarkup = tidy_repair_string($badMarkup, array(

    'output-xml' => true,

    'input-xml' => true

));

U pitanju je PHP kod i koristi se Tidy PECL ekstenzija.

Nekako mi je ovo bilo mnogo praktičnije, jer mi omogućava da kroz bilbioteku pristupan podacima, za razliku od načina gde bih morao da pravim RegEx bazirani parser.
Kao i što kaže Jeff Atwood:

Citat:

I berate them for not being lazy. You need to be lazy as a programmer. Parsing HTML is a solved problem. You do not need to solve it. You just need to be lazy. Be lazy, use CPAN and use HTML::Sanitizer. It will make your coding easier. It will leave your code more maintainable. You won't have to sit there hand-coding regular expressions. Your code will be more robust. You won't have to bug fix every time the HTML breaks your crappy regex

ivanhoe

17. 04. 2012. 01:23

Ogromna je razlika izmedju RSS feed-a (koji sadrzi samo podatke koji ti trebaju, uredno organizovane), i HTML strane (gde je 99% texta tebi potpuno nebitno). Za RSS feedove i ja koristim XML naravno..

A ta prica kako ces da napises jedan parser i da ga onda koristis na gomili poslova je budalastina, u praksi to ne radi, svaki sajt zahteva customizaciju i skoro svaki redizajn tog sajta u buducnosti ce da zahteva izmenu u kodu. Pricam iz visegodisenjeg iskustva, gomilu poslova smo dobili u proslosti upravo zato sto su "naucnici" rekli klijentima kako je to nemoguce parsirati, jer su pokusavali da napisu jednu skriptu za 10 razlicitih sajtova. Trust me, spajderi se pisu maksimalno specijalizovano, naravno koristeci framework koji jednom napravis. Za sve ostale poslove, one gde generalizacija prolazi, klijent ce da skine neki desktop alat gde kliknes i on ti skine te podatke, nece tebe da placa $30 sat za to...

Razlika se onda svede samo na to da li je tebi lakse da menjas pozive metoda na nekom objektu ili da menjas regexp, ali nesto moras da menjas... i ako je to razlika vredna losijih performansi samo napred, ali onda treba napisati: Ja ne znam bas najbolje regExp, komplikovano mi je i pravim cesto greske, pa mi je brze ovako. A ne da se prodaje prica kako je to "jedini pravi pristup".

Jedini pravi pristup je onaj koji ti za minimalno vremena i kolicinu gnjavaze zavrsi posao svaki put, sve ostalo je hipsterski bull****...

webarto

17. 04. 2012. 01:42

http://framework.zend.com/manual/en/zend.dom.query.html
http://code.google.com/p/phpquery/
http://simplehtmldom.sourceforge.net/ (ovaj je regex based ali mu ništa ne fali)

ivanhoe

17. 04. 2012. 02:22

evo cisto kao ilustracija o cemu pricam, glup primer, zamislite da negde u sred strane ima ovakvih par linkova:

HTML kôd:



<a href="foo">Foo</a>

<a href="bar">Bar</a>

<a href="neki_dinamicki_generisani_link_do_cenovnika">Prices for neki proizvod</a>

Kako preko DOM based parsera dohvatiti link cenovnika? Ili ici redom kroz sve linkove, pa traziti koji ima text koji pocinje sa Prices, sto je ovde ok, ali linkova moze biti milion, ili jos gore resenje traziti treci po redu link (pa onda to pukne cim se malo promeni dizajn). Regexp-om se to dohvata laganica. Sto je jos bitnije, dizajner moze da menja dizajn strane koliko voli (sto ecommerce sajtovi rade cesto zbog sezonskih promocija i sl), dok god je text linka nepromenjen, moj spajder radi kao sat

Ovo je jako uproscena situacija, u realnom poslu treba ispratiti gomilu linkova na strani, pronaci next page linkove, handlovati cesto lose napisan kod gde se u sred strane pojavljuju php greske ili linkovi na sledece strane rezultata koje zapravo ne postoje, menja se dizajn strane od proizvoda do proizvoda, programeri namerno prave fore da sprece parsiranje i sl. Not for the faint-hearted...

EDIT: Da me ne razume neko pogresno, nemam ja nista protiv DOM parsera, za "normalne" primene je to genijalno elegantno resenje ili ako je iz nekog razloga bitna struktura stranice, ali za komercijalne spajdere koji najcesce rade polu-legalne stvare, da ne kazem kradu sadrzaj, akademske prica o "ispravnom" nacinu parsiranja html-a su u najmanju ruku smesne...

Dušan Dželebdžić

17. 04. 2012. 07:34

XPath 2 podržava regexp u upitima. Najbolje od oba sveta, samo još da proradi u PHP-u kako valja :)

webarto

17. 04. 2012. 10:56

@ivanhoe, mislim da preg_match nije dobro, jer je overkill da se nešto uradi, ili promjeni... možeš sve uraditi sa CSS selektorima (barem ja što sam radio scrapinga)...

Zend Query (nisam testirao)

PHP kôd:


		
			
    $dom = new Zend_Dom_Query($html);

    $results = $dom->query('a[href*="cenovnik"]');



    foreach ($results as $result)

        echo $result->href;

Simple HTML DOM

PHP kôd:


		
			
$e = $html->find('a[href*="cenovnik"]', 0);

echo $e->href;



$e = $html->find('a[text^="Prices"]', 0);

echo $e->href, $e->innertext;

[attribute] Matches elements that have the specified attribute.
[attribute=value] Matches elements that have the specified attribute with a certain value.
[attribute!=value] Matches elements that don't have the specified attribute with a certain value.
[attribute^=value] Matches elements that have the specified attribute and it starts with a certain value.
[attribute$=value] Matches elements that have the specified attribute and it ends with a certain value.
[attribute*=value] Matches elements that have the specified attribute and it contains a certain value.

Br@nkoR

17. 04. 2012. 11:25

Citat:

Originalno napisao Dušan Dželebdžić (Napišite 106456)

XPath 2 podržava regexp u upitima. Najbolje od oba sveta, samo još da proradi u PHP-u kako valja :)

Od PHP 5.3 možeš koristiti PHP funkcije kao XPath funkcije
http://php.net/manual/en/domxpath.re...pfunctions.php

PHP kôd:


		
			
libxml_use_internal_errors(true);

$html = new DOMDocument();

$html->loadHtml('

<a href="foo">Foo</a>

<a href="bar">Bar</a>

<a href="neki_dinamicki_generisani_link_do_cenovnika">Prices for neki proizvod</a>

');

$xpath = new DOMXPath( $html );

$xpath->registerNamespace('php', 'http://php.net/xpath');

$xpath->registerPHPFunctions();



$cenovnik = $xpath->evaluate("//a[php:functionString('preg_match', '/cenovnik/', @href) = 1]");

// $cenovnik = $xpath->evaluate("//a[@href='neki_dinamicki_generisani_link_do_cenovnika']");

// $cenovnik = $xpath->evaluate("//a[contains(@href,'cenovnik')]");



echo $cenovnik->item(0)->nodeValue . PHP_EOL;

echo $cenovnik->item(0)->getAttribute('href') . PHP_EOL;

ivanhoe

17. 04. 2012. 13:33

@webarto: nemas uvek tako jednostavan href, cesto ti svi linkovi gadjaju jednu te istu skriptu sa milion get parametara od kojih zavisi sta ce prikazati

A i mislim da je sustina price u tome sta je covek navikao da radi. Meni je kineski potpuno necitljiv, ali kinezi ga koriste bez problema. Da li treba reci kako je latinica (ili cirilica) jedini ispravan nacin pisanja slova, jer je laksi za ucenje i pisanje?

Sta hocu da kazem: ljudi prave bauka od regExpa, a to je uzasno korisna stvar, i jednom kad naviknes mozak nije bas toliko necitko koliko izgleda. Samo je caka da si ih dovoljno puta napisao, kao sa svim ostalim...

webarto

17. 04. 2012. 19:27

nemam ja ništa protiv regexa, samo kažem ako se doda i jedan space, ako nije formiran regex dobro (a može ti svašta promaći), pući će, XML parser radi na drugom principu i manje je vjerovatno da će pući... mislim zar nije lakše #div kucati nego <div(.*?)id="div"(.*)>(.*?)</div>, i kako znati da neće dodati space jedan i sve da pukne... plus što moraš nagadjati koji je key ono što tražiš, umjesto $e->text ili tako nešto... ovaj simplehtmldom je par kilobajta i mislim da se bolje osloniti na njega, nego kucati sve ovo...

ivanhoe

18. 04. 2012. 00:02

Slazem se, jeste lakse i kad mozes tako to je skroz ok. Ja sam retko nalazio tako cistu situaciju (doduse, ja sam se spajderima bavio ranije, i to u perlu, pa je mozda sad bolja situacija. Tada (2000-2006) su prakticno svi ecommerc sajtovi imali linkove od po 300+ karaktera sa milion parametara, plus ceste greske u generisanju koda)

A spejsovi i sve ostalo se lako pokrije ako napises dobar RE izraz. I to moze to da se stavi u funkcije tako da ne pises iznova, tipa ja sam imao get_tags(), get_link_by_text(), filter_by_attr() i sl. Samo prosledis funkciji text ili komad patterna koji te zanima, a funkcija brine da sklopi regExp kako treba. Prvi put sam ulozio mozda malkice vise mozganja da napisem dobar regExp koji handluje sve potencijalne probleme, ali posle je jednako jednostavno za upotrebu kao neka gotova klasa, a mnogo fleksibilnije i efikasnije jer nisam ogranicen hijerarhijom stranice i ne punim memoriju kompleksnim strukturama koje mi ne trebaju.

buksula

20. 05. 2012. 23:14

Za sta regex sluzi (developerima)?

Koliko ja razumem to je jedino korisno za agregator sajtove, i za shopping comparasion sajtove.

McKracken

21. 05. 2012. 00:03

Zezas se, jel da?

bluesman

21. 05. 2012. 14:54

Da, regex je poznat po tome što ga masovno koriste dizajneri ... developerima služi samo kao šminka, da ispadnu frajeri :)

mangia

21. 05. 2012. 15:47

To se koristi u knjigovdstvu...

Moja kolegica Dragica iz fakturnog, da nema regex-a, PDV obračun nikada ne bi završila... Da ne pričam za amortizaciju...

tasmaniski

21. 05. 2012. 18:14

Šta se odma primate :P

Očigledan pokušaj trolovanja ....

McKracken

21. 05. 2012. 19:04

Kad su Buksula i Adria(nesto) u pitanju nikad nista nije ocigledno :)

xippi

21. 05. 2012. 20:32

idu dva regexpa ulicom, jedan greedy drugi lazy

Vreme je GMT +2. Trenutno vreme je 16:18.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.