|
|||||||
| charles wang |
| Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite |
![]() |
|
|
Alati teme | Način prikaza |
|
|
#1 | |
|
Nekad bio ddz
Expert
|
Jedan probao, pa odlepio...
http://stackoverflow.com/a/1732454 Citat:
__________________
Converting dead links into hyperlinks since 1996. |
|
|
|
|
| "Hvala" Dušan Dželebdžić za poruku: |
|
|
#2 | |
|
Super Moderator
Knowledge base
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.844
Hvala: 282
573 "Hvala" u 341 poruka
![]() ![]() ![]() ![]() ![]() ![]() |
a u komentarima
![]() Citat:
|
|
|
|
|
| 3 članova zahvaljuje mileusna za poruku: |
|
|
#3 |
|
expert
Grand Master
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
218 "Hvala" u 150 poruka
![]() ![]() ![]() |
http://www.codinghorror.com/blog/200...hulhu-way.html puk'o je bobince ima već 2 godine
![]() |
|
|
|
|
|
#4 |
|
Ivan Dilber
Sir Write-a-Lot
|
funny, ali to je potpuni bull****... html ne treba parsirati regexp-om:
a) ako ne znas makar priblizno kako izgleda doticni HTML b) ako ne znas da koristis regexp-e ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama.. cim probas tako da pocupas podatke iz nekog e-shopa ili CMS-a i krenes da naleces na random tagove koje je neko slucajno pesjtvovao u sred texta, you're screwed with XML...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
|
|
|
| "Hvala" ivanhoe za poruku: |
|
|
#5 |
|
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.104
Hvala: 497
496 "Hvala" u 276 poruka
![]() ![]() ![]() ![]() ![]() ![]() |
__________________
blog |
|
|
|
| "Hvala" jablan za poruku: |
|
|
#6 |
|
član
Certified
Datum učlanjenja: 17.10.2006
Poruke: 64
Hvala: 41
18 "Hvala" u 9 poruka
![]() |
Za dobar HTML parser su bitne samo 2 stvari: da radi posao i da moze da se napravi za sto krace vreme. U vecini prakticnih situacija regexp to radi odlicno.
|
|
|
|
|
|
#7 |
|
član
Certified
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
![]() |
Da se nadovezem na Jablana - beautiful soup (http://www.crummy.com/software/BeautifulSoup/) za Python ce ti isto isparsirati stagod mu das, makar proslo pored validnosti nije. Siguran sam da ima nesto slicnog stepena robustnosti i za PHP i ostale...
|
|
|
|
|
|
#8 | ||
|
Nekad bio ddz
Expert
|
Citat:
), ali čini mi se da je u PHP-u to fino rešeno. Domdocument ima metod loadXML koji očekuje savršeno formatiran kôd, ali tu je i loadHTML koji radi isto, samo ne paniči ako fali neki tag.http://www.php.net/manual/en/domdocument.loadhtml.php Citat:
__________________
Converting dead links into hyperlinks since 1996. |
||
|
|
|
|
|
#9 |
|
Ivan Dilber
Sir Write-a-Lot
|
Moram da priznam da sam ja radio scrapping podataka samo iz perla i to zadnji put pre par godina, tako da mozda sad i postoji neko efikasno resenje, tada definitivno nije postojalo nista sto moze da se nosi sa custom napisanim regExp-om po pitanju brzine i efikasnosti...
Kad se spajderuju podaci obicno ti je potrebno samo par cifara od cele HTML strane, parsiranje svega toga u DOM da bi dohvatio par celija iz neke tabele je jako neefikasan pristup IMHO... i ne samo neefikasan, nego i nepotreban, zasto bi to radio? A u realnom slucaju kad sve to pustis u X procesa koji treba da obrade katalog od 500-600 hiljada artikala u nekom razumnom roku, onda memorija i brzina postaju vrlo velika stavka...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
|
|
|
|
|
#10 |
|
Super Moderator
Knowledge base
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.844
Hvala: 282
573 "Hvala" u 341 poruka
![]() ![]() ![]() ![]() ![]() ![]() |
Ja verujem da postoje bolja rešenja, ali navika je čudo, tako da ja i dalje radim putem RegExp.
|
|
|
|
![]() |
| Alati teme | |
| Način prikaza | |
|
|
|||||