|
Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite |
|
Alati teme | Način prikaza |
|
15. 03. 2012. | #1 | |
Nekad bio ddz
Expert
|
Zašto ne treba parsirati (X)HTML regexom
Jedan probao, pa odlepio...
http://stackoverflow.com/a/1732454 Citat:
__________________
Converting dead links into hyperlinks since 1996. |
|
"Hvala" Dušan Dželebdžić za poruku: |
15. 03. 2012. | #2 | |
Super Moderator
Knowledge base
Datum učlanjenja: 21.03.2006
Lokacija: Kragujevac
Poruke: 1.878
Hvala: 291
1.345 "Hvala" u 355 poruka
|
a u komentarima
Citat:
|
|
3 članova zahvaljuje mileusna za poruku: |
15. 03. 2012. | #3 |
expert
Grand Master
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
959 "Hvala" u 153 poruka
|
http://www.codinghorror.com/blog/200...hulhu-way.html puk'o je bobince ima već 2 godine
|
15. 03. 2012. | #4 |
Ivan Dilber
Sir Write-a-Lot
|
funny, ali to je potpuni bull****... html ne treba parsirati regexp-om:
a) ako ne znas makar priblizno kako izgleda doticni HTML b) ako ne znas da koristis regexp-e ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama.. cim probas tako da pocupas podatke iz nekog e-shopa ili CMS-a i krenes da naleces na random tagove koje je neko slucajno pesjtvovao u sred texta, you're screwed with XML...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
"Hvala" ivanhoe za poruku: |
15. 03. 2012. | #5 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
|
__________________
blog |
"Hvala" jablan za poruku: |
15. 03. 2012. | #6 |
član
Certified
Datum učlanjenja: 17.10.2006
Poruke: 65
Hvala: 42
18 "Hvala" u 9 poruka
|
Za dobar HTML parser su bitne samo 2 stvari: da radi posao i da moze da se napravi za sto krace vreme. U vecini prakticnih situacija regexp to radi odlicno.
|
15. 03. 2012. | #7 | ||
Nekad bio ddz
Expert
|
Citat:
http://www.php.net/manual/en/domdocument.loadhtml.php Citat:
__________________
Converting dead links into hyperlinks since 1996. |
||
15. 03. 2012. | #8 |
član
Certified
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
|
Da se nadovezem na Jablana - beautiful soup (http://www.crummy.com/software/BeautifulSoup/) za Python ce ti isto isparsirati stagod mu das, makar proslo pored validnosti nije. Siguran sam da ima nesto slicnog stepena robustnosti i za PHP i ostale...
|
15. 03. 2012. | #9 |
Ivan Dilber
Sir Write-a-Lot
|
Moram da priznam da sam ja radio scrapping podataka samo iz perla i to zadnji put pre par godina, tako da mozda sad i postoji neko efikasno resenje, tada definitivno nije postojalo nista sto moze da se nosi sa custom napisanim regExp-om po pitanju brzine i efikasnosti...
Kad se spajderuju podaci obicno ti je potrebno samo par cifara od cele HTML strane, parsiranje svega toga u DOM da bi dohvatio par celija iz neke tabele je jako neefikasan pristup IMHO... i ne samo neefikasan, nego i nepotreban, zasto bi to radio? A u realnom slucaju kad sve to pustis u X procesa koji treba da obrade katalog od 500-600 hiljada artikala u nekom razumnom roku, onda memorija i brzina postaju vrlo velika stavka...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
15. 03. 2012. | #10 |
Super Moderator
Knowledge base
Datum učlanjenja: 21.03.2006
Lokacija: Kragujevac
Poruke: 1.878
Hvala: 291
1.345 "Hvala" u 355 poruka
|
Ja verujem da postoje bolja rešenja, ali navika je čudo, tako da ja i dalje radim putem RegExp.
|
|
|