Zašto ne treba parsirati (X)HTML regexom

Forumi IT profesionalaca
web development, web design, e-business, SEO

Pitanja i odgovori Članovi Kalendar Današnje poruke Pretraga

		DevProTalk > Web development i web aplikacije > Regular expression i htaccess
Zašto ne treba parsirati (X)HTML regexom

Å½elite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite

Alati teme

Način prikaza

17. 04. 2012.

#11

Marko Medojevic

član

Certified

Datum učlanjenja: 12.05.2007

Lokacija: Beograd

Poruke: 82

Hvala: 20

293 "Hvala" u 7 poruka

Marko Medojevic is on a distinguished road

Pošaljite poruku preko MSN za Marko Medojevic

Skoro sam imao situaciju da sam za RSS feed dobijao nevalidan XML. Zbog toga sam imao problem sa korišćenjem tih podataka kroz XML bilbioteku, jer je ona tražila validan XML.
Problem sam rešio na sledeći način:

Kôd:

$validMarkup = tidy_repair_string($badMarkup, array(
    'output-xml' => true,
    'input-xml' => true
));

U pitanju je PHP kod i koristi se Tidy PECL ekstenzija.

Nekako mi je ovo bilo mnogo praktičnije, jer mi omogućava da kroz bilbioteku pristupan podacima, za razliku od načina gde bih morao da pravim RegEx bazirani parser.
Kao i što kaže Jeff Atwood:

Citat:

I berate them for not being lazy. You need to be lazy as a programmer. Parsing HTML is a solved problem. You do not need to solve it. You just need to be lazy. Be lazy, use CPAN and use HTML::Sanitizer. It will make your coding easier. It will leave your code more maintainable. You won't have to sit there hand-coding regular expressions. Your code will be more robust. You won't have to bug fix every time the HTML breaks your crappy regex

« Prethodna tema | Sledeća tema »

Pravila pisanja
Možete ne započinjati nove teme Možete ne slati odgovore Možete ne slati priloge Možete ne izmeniti svoje poruke	vB kôd je Uključen Smajliji su Uključen [IMG] kod je Uključen HTML kôd je Isključen

Pogledajte forum

Vreme je GMT +2. Trenutno vreme je 12:23.

Prijatelji: www.blogodak.com | www.sestroslatka.com

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.