Pod uslovom da
sledeće veliko upozorenje o uslovima korišćenja materijala koje kaže, citiram
Citat:
Blic online ima autorska prava na sve sadržaje (tekstualne, vizuelne i audio materijale, baze podataka, programerski kod). Neovlašćeno korišćenje bilo kog dela portala, bez dozvole vlasnika autorskih prava, smatra se kršenjem autorskih prava Blic online i podložno je tužbi.
|
ne predstavlja problem moja preporuka kod ekstrakcije materijala ovog tipa je da se ne koriste regularni izrazi. Postoje dva bitna razloga zbog čega ih ne bi trebalo koristiti u ovom slučaju a to je kao prvo činjenica da je
preg_match_all poprilično "skupo" rešenje ako se kao uzorak za pretragu koristi ovako velika stranica a kao drugo regularni izrazi u ovom slučaju imaju nedostatak da zahtevaju striktno poštovanje metodologije formiranja (X)HTML tagova (redosled atributa u tagu ne bi smeo da se menja inače regex ne funkcioniše).
Moja preporuka u ovakvim situacijama je da se koriste
DOMDocument i
DOMXpath koji umnogome olakšavaju posao pri manipulaciji (X)HTML sadržaja. Pravila XPath ekstrakcije se veoma lako formiraju i daju se za veoma kratko vreme naučiti da ne pominjem da se mogu koristiti u raznim situacijama čak i kada kod nije validan po W3Cu.