Pogledajte određenu poruku
Staro 30. 08. 2009.   #4
pitchweis
profesionalac
Qualified
 
Datum učlanjenja: 17.10.2006
Poruke: 104
Hvala: 19
10 "Hvala" u 6 poruka
pitchweis is on a distinguished road
Default

Citat:
Originalno napisao holodoc Pogledajte poruku
Pod uslovom da sledeće veliko upozorenje o uslovima korišćenja materijala koje kaže, citiram ne predstavlja problem moja preporuka kod ekstrakcije materijala ovog tipa je da se ne koriste regularni izrazi. Postoje dva bitna razloga zbog čega ih ne bi trebalo koristiti u ovom slučaju a to je kao prvo činjenica da je preg_match_all poprilično "skupo" rešenje ako se kao uzorak za pretragu koristi ovako velika stranica a kao drugo regularni izrazi u ovom slučaju imaju nedostatak da zahtevaju striktno poštovanje metodologije formiranja (X)HTML tagova (redosled atributa u tagu ne bi smeo da se menja inače regex ne funkcioniše).

Moja preporuka u ovakvim situacijama je da se koriste DOMDocument i DOMXpath koji umnogome olakšavaju posao pri manipulaciji (X)HTML sadržaja. Pravila XPath ekstrakcije se veoma lako formiraju i daju se za veoma kratko vreme naučiti da ne pominjem da se mogu koristiti u raznim situacijama čak i kada kod nije validan po W3Cu.
Brate mili, nista ti ja ovde ne razumem . Što se tiče auorskih prava, tu nema problema, radim za autora tekstova.
__________________
soon
pitchweis je offline   Odgovorite uz citat