DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Regular expression i htaccess
Beach Wedding Dresses - Looking for the Wedding Dress? Here, 1dress.co.uk stunning collection of beach wedding dresses is just what you are looking for.
charles wang

Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite

Odgovori
 
Alati teme Način prikaza
Staro 14. 03. 2012.   #1
Dušan Dželebdžić
Nekad bio ddz
Expert
 
Avatar Dušan Dželebdžić
 
Datum učlanjenja: 09.06.2005
Poruke: 590
Hvala: 88
127 "Hvala" u 51 poruka
Dušan Dželebdžić će postati "faca" uskoroDušan Dželebdžić će postati "faca" uskoro
Pošaljite poruku preko MSN za Dušan Dželebdžić Pošaljite poruku preko Skype™ za Dušan Dželebdžić
Default Zašto ne treba parsirati (X)HTML regexom

Jedan probao, pa odlepio...
http://stackoverflow.com/a/1732454

Citat:
You can't parse [X]HTML with regex. Because HTML can't be parsed by regex. Regex is not a tool that can be used to correctly parse HTML. As I have answered in HTML-and-regex questions here so many times before, the use of regex will not allow you to consume HTML. Regular expressions are a tool that is insufficiently sophisticated to understand the constructs employed by HTML. HTML is not a regular language and hence cannot be parsed by regular expressions. Regex queries are not equipped to break down HTML into its meaningful parts. so many times but it is not getting to me. Even enhanced irregular regular expressions as used by Perl are not up to the task of parsing HTML. You will never make me crack. HTML is a language of sufficient complexity that it cannot be parsed by regular expressions. Even Jon Skeet cannot parse HTML using regular expressions. Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. Parsing HTML with regex summons tainted souls into the realm of the living. HTML and regex go together like love, marriage, and ritual infanticide. The <center> cannot hold it is too late. The force of regex and HTML together in the same conceptual space will destroy your mind like so much watery putty. If you parse HTML with regex you are giving in to Them and their blasphemous ways which doom us all to inhuman toil for the One whose Name cannot be expressed in the Basic Multilingual Plane, he comes. HTML-plus-regexp will liquify the n​erves of the sentient whilst you observe, your psyche withering in the onslaught of horror. Rege̿̔̉x-based HTML parsers are the cancer that is killing StackOverflow it is too late it is too late we cannot be saved the trangession of a chi͡ld ensures regex will consume all living tissue (except for HTML which it cannot, as previously prophesied) dear lord help us how can anyone survive this scourge using regex to parse HTML has doomed humanity to an eternity of dread torture and security holes using regex as a tool to process HTML establishes a breach between this world and the dread realm of c͒ͪo͛ͫrrupt entities (like SGML entities, but more corrupt) a mere glimpse of the world of reg​ex parsers for HTML will ins​tantly transport a programmer's consciousness into a world of ceaseless screaming, he comes, the pestilent slithy regex-infection wil​l devour your HT​ML parser, application and existence for all time like Visual Basic only worse he comes he comes do not fi​ght he com̡e̶s, ̕h̵i​s un̨ho͞ly radiańcé destro҉ying all enli̍̈́̂̈́ghtenment, HTML tags lea͠ki̧n͘g fr̶ǫm ̡yo​͟ur eye͢s̸ ̛l̕ik͏e liq​uid pain, the song of re̸gular exp​ression parsing will exti​nguish the voices of mor​tal man from the sp​here I can see it can you see ̲͚̖͔̙î̩́t̲͎̩̱͔́̋̀ it is beautiful t​he final snuffing of the lie​s of Man ALL IS LOŚ͖̩͇̗̪̏̈́T ALL I​S LOST the pon̷y he comes he c̶̮omes he comes the ich​or permeates all MY FACE MY FACE ᵒh god no NO NOO̼O​O NΘ stop the an​*̶͑̾̾​̅ͫ͏̙̤g͇̫͛͆̾ͫ̑͆l͖͉̗̩̳̟̍ͫͥͨe̠̅s ͎a̧͈͖r̽̾̈́͒͑e n​ot rè̑ͧ̌aͨl̘̝̙̃ͤ͂̾̆ ZA̡͊͠͝LGΌ ISͮ̂҉̯͈͕̹̘̱ TO͇̹̺ͅƝ̴ȳ̳ TH̘Ë͖́̉ ͠P̯͍̭O̚​N̐Y̡ H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S ̨̥̫͎̭ͯ̿̔̀ͅ
__________________
Converting dead links into hyperlinks since 1996.
Dušan Dželebdžić je offline   Odgovorite uz citat
"Hvala" Dušan Dželebdžić za poruku:
Staro 15. 03. 2012.   #2
mileusna
Super Moderator
Knowledge base
 
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.876
Hvala: 290
594 "Hvala" u 349 poruka
mileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobar
Default

a u komentarima
Citat:
Chuck Norris can parse HTML with regex. – THX-1138 Nov 14 '09 at 0:03
mileusna je offline   Odgovorite uz citat
3 članova zahvaljuje mileusna za poruku:
Staro 15. 03. 2012.   #3
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
218 "Hvala" u 150 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

http://www.codinghorror.com/blog/200...hulhu-way.html puk'o je bobince ima već 2 godine
__________________
Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting
webarto je offline   Odgovorite uz citat
Staro 15. 03. 2012.   #4
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.315
Hvala: 104
911 "Hvala" u 577 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

funny, ali to je potpuni bull****... html ne treba parsirati regexp-om:
a) ako ne znas makar priblizno kako izgleda doticni HTML
b) ako ne znas da koristis regexp-e

ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama.. cim probas tako da pocupas podatke iz nekog e-shopa ili CMS-a i krenes da naleces na random tagove koje je neko slucajno pesjtvovao u sred texta, you're screwed with XML...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
"Hvala" ivanhoe za poruku:
Staro 15. 03. 2012.   #5
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
507 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Citat:
Originalno napisao ivanhoe Pogledajte poruku
jer to ne radi uopste sem sa staticnim i 100% validnim stranama..
Umm...

http://nokogiri.org/tutorials/ensuri...ed_markup.html
__________________
blog
jablan je offline   Odgovorite uz citat
"Hvala" jablan za poruku:
Staro 15. 03. 2012.   #6
akubra
član
Certified
 
Avatar akubra
 
Datum učlanjenja: 17.10.2006
Poruke: 65
Hvala: 42
18 "Hvala" u 9 poruka
akubra is on a distinguished road
Default

Za dobar HTML parser su bitne samo 2 stvari: da radi posao i da moze da se napravi za sto krace vreme. U vecini prakticnih situacija regexp to radi odlicno.
akubra je offline   Odgovorite uz citat
Staro 15. 03. 2012.   #7
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Da se nadovezem na Jablana - beautiful soup (http://www.crummy.com/software/BeautifulSoup/) za Python ce ti isto isparsirati stagod mu das, makar proslo pored validnosti nije. Siguran sam da ima nesto slicnog stepena robustnosti i za PHP i ostale...
djipko je offline   Odgovorite uz citat
Staro 15. 03. 2012.   #8
Dušan Dželebdžić
Nekad bio ddz
Expert
 
Avatar Dušan Dželebdžić
 
Datum učlanjenja: 09.06.2005
Poruke: 590
Hvala: 88
127 "Hvala" u 51 poruka
Dušan Dželebdžić će postati "faca" uskoroDušan Dželebdžić će postati "faca" uskoro
Pošaljite poruku preko MSN za Dušan Dželebdžić Pošaljite poruku preko Skype™ za Dušan Dželebdžić
Default

Citat:
Originalno napisao ivanhoe Pogledajte poruku
ali svakako radi bolje od parsiranja XML parserima, jer to ne radi uopste sem sa staticnim i 100% validnim stranama..
Juče sam tek malo ozbiljnije pogledao dokumentaciju za ovo (juče mi je prvi put zatrebalo ), ali čini mi se da je u PHP-u to fino rešeno. Domdocument ima metod loadXML koji očekuje savršeno formatiran kôd, ali tu je i loadHTML koji radi isto, samo ne paniči ako fali neki tag.

http://www.php.net/manual/en/domdocument.loadhtml.php

Citat:
The function parses the HTML contained in the string source. Unlike loading XML, HTML does not have to be well-formed to load. This function may also be called statically to load and create a DOMDocument object. The static invocation may be used when no DOMDocument properties need to be set prior to loading.
__________________
Converting dead links into hyperlinks since 1996.
Dušan Dželebdžić je offline   Odgovorite uz citat
Staro 15. 03. 2012.   #9
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.315
Hvala: 104
911 "Hvala" u 577 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

Moram da priznam da sam ja radio scrapping podataka samo iz perla i to zadnji put pre par godina, tako da mozda sad i postoji neko efikasno resenje, tada definitivno nije postojalo nista sto moze da se nosi sa custom napisanim regExp-om po pitanju brzine i efikasnosti...

Kad se spajderuju podaci obicno ti je potrebno samo par cifara od cele HTML strane, parsiranje svega toga u DOM da bi dohvatio par celija iz neke tabele je jako neefikasan pristup IMHO... i ne samo neefikasan, nego i nepotreban, zasto bi to radio? A u realnom slucaju kad sve to pustis u X procesa koji treba da obrade katalog od 500-600 hiljada artikala u nekom razumnom roku, onda memorija i brzina postaju vrlo velika stavka...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 15. 03. 2012.   #10
mileusna
Super Moderator
Knowledge base
 
Datum učlanjenja: 20.03.2006
Lokacija: Kragujevac
Poruke: 1.876
Hvala: 290
594 "Hvala" u 349 poruka
mileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobarmileusna je jednostavno dobar
Default

Ja verujem da postoje bolja rešenja, ali navika je čudo, tako da ja i dalje radim putem RegExp.
mileusna je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 17:43.


Blogodak - Domaci blogovi na jednom mestu Caught in a web - web dev blog
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2014, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.