|
Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite |
![]() |
|
Alati teme | Način prikaza |
![]() |
#1 | |
Nekad bio ddz
Expert
|
![]() Jedan probao, pa odlepio...
http://stackoverflow.com/a/1732454 Citat:
__________________
Converting dead links into hyperlinks since 1996. |
|
![]() |
![]() |
"Hvala" Dušan Dželebdžić za poruku: |
![]() |
#2 | |
Super Moderator
Knowledge base
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.878
Hvala: 291
1.345 "Hvala" u 355 poruka
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() a u komentarima
![]() Citat:
|
|
![]() |
![]() |
3 članova zahvaljuje mileusna za poruku: |
![]() |
#3 |
expert
Grand Master
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
959 "Hvala" u 153 poruka
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() http://www.codinghorror.com/blog/200...hulhu-way.html puk'o je bobince ima već 2 godine
![]() |
![]() |
![]() |
![]() |
#4 |
Ivan Dilber
Sir Write-a-Lot
|
![]() funny, ali to je potpuni bull****... html ne treba parsirati regexp-om:
a) ako ne znas makar priblizno kako izgleda doticni HTML b) ako ne znas da koristis regexp-e ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama.. cim probas tako da pocupas podatke iz nekog e-shopa ili CMS-a i krenes da naleces na random tagove koje je neko slucajno pesjtvovao u sred texta, you're screwed with XML...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
![]() |
![]() |
"Hvala" ivanhoe za poruku: |
![]() |
#5 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]()
__________________
blog |
![]() |
![]() |
"Hvala" jablan za poruku: |
![]() |
#6 |
član
Certified
Datum učlanjenja: 17.10.2006
Poruke: 65
Hvala: 42
18 "Hvala" u 9 poruka
![]() |
![]() Za dobar HTML parser su bitne samo 2 stvari: da radi posao i da moze da se napravi za sto krace vreme. U vecini prakticnih situacija regexp to radi odlicno.
|
![]() |
![]() |
![]() |
#7 |
član
Certified
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
![]() |
![]() Da se nadovezem na Jablana - beautiful soup (http://www.crummy.com/software/BeautifulSoup/) za Python ce ti isto isparsirati stagod mu das, makar proslo pored validnosti nije. Siguran sam da ima nesto slicnog stepena robustnosti i za PHP i ostale...
|
![]() |
![]() |
![]() |
#8 | ||
Nekad bio ddz
Expert
|
![]() Citat:
![]() http://www.php.net/manual/en/domdocument.loadhtml.php Citat:
__________________
Converting dead links into hyperlinks since 1996. |
||
![]() |
![]() |
![]() |
#9 |
Ivan Dilber
Sir Write-a-Lot
|
![]() Moram da priznam da sam ja radio scrapping podataka samo iz perla i to zadnji put pre par godina, tako da mozda sad i postoji neko efikasno resenje, tada definitivno nije postojalo nista sto moze da se nosi sa custom napisanim regExp-om po pitanju brzine i efikasnosti...
Kad se spajderuju podaci obicno ti je potrebno samo par cifara od cele HTML strane, parsiranje svega toga u DOM da bi dohvatio par celija iz neke tabele je jako neefikasan pristup IMHO... i ne samo neefikasan, nego i nepotreban, zasto bi to radio? A u realnom slucaju kad sve to pustis u X procesa koji treba da obrade katalog od 500-600 hiljada artikala u nekom razumnom roku, onda memorija i brzina postaju vrlo velika stavka...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
![]() |
![]() |
![]() |
#10 |
Super Moderator
Knowledge base
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.878
Hvala: 291
1.345 "Hvala" u 355 poruka
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() Ja verujem da postoje bolja rešenja, ali navika je čudo, tako da ja i dalje radim putem RegExp.
|
![]() |
![]() |
![]() |
Alati teme | |
Način prikaza | |
|
|