DevProTalk - Pogledajte određenu poruku

holodoc · 30. 08. 2009.

Pod uslovom da sledeće veliko upozorenje o uslovima korišćenja materijala koje kaže, citiram

Citat:

Blic online ima autorska prava na sve sadržaje (tekstualne, vizuelne i audio materijale, baze podataka, programerski kod). Neovlašćeno korišćenje bilo kog dela portala, bez dozvole vlasnika autorskih prava, smatra se kršenjem autorskih prava Blic online i podložno je tužbi.

ne predstavlja problem moja preporuka kod ekstrakcije materijala ovog tipa je da se ne koriste regularni izrazi. Postoje dva bitna razloga zbog čega ih ne bi trebalo koristiti u ovom slučaju a to je kao prvo činjenica da je preg_match_all poprilično "skupo" rešenje ako se kao uzorak za pretragu koristi ovako velika stranica a kao drugo regularni izrazi u ovom slučaju imaju nedostatak da zahtevaju striktno poštovanje metodologije formiranja (X)HTML tagova (redosled atributa u tagu ne bi smeo da se menja inače regex ne funkcioniše).

Moja preporuka u ovakvim situacijama je da se koriste DOMDocument i DOMXpath koji umnogome olakšavaju posao pri manipulaciji (X)HTML sadržaja. Pravila XPath ekstrakcije se veoma lako formiraju i daju se za veoma kratko vreme naučiti da ne pominjem da se mogu koristiti u raznim situacijama čak i kada kod nije validan po W3Cu.