DevProTalk - Pogledajte određenu poruku

cvele · 12. 06. 2007.

Kao fallowup iz jedne predhodne teme, mislim da bi bilo korisno da sa vama podelim jedan prilicno dobar i jednostavan clanak na gore pomenutu temu

Autor: Goran /Regexp/i Savić
--------------------------------------------------
Opste o regularnim izrazima

Regularni izrazi (eng. Regular Expressions) su pomocna i vrlo korisna alatka za parsiranje teksta. Pomocu njih je moguce uraditi pretrazivanje/izdvajanje odredjenih obrazaca teksta, uraditi zamenu teksta i slicne manipulacije istim. Prakticnost regularnih izraza se ogleda u tome da bi odgovarajuci programski ekvivalent regularnih izraza bio nemerljivo duzi i komplikovaniji za realizaciju uz mnogo vise vremena potrebnog za postavljanje/izmene - uz to, regularni izrazi su, u principu, nezavisni od programske platforme.

Kao programske funkcije postoje u raznim implementacijama raznih programskih jezika i to u varijantama Posix (standardizovani Unix) i tzv. Perl kompatibilni izrazi. Iako u PHP-u postoji podrska za oba standarda, ovde ce biti objasnjena samo Posix varijanta, s obzirom da se Perl varijanta (kao jaca i slozenija) moze shvatiti kao nadgradnja prethodne (a uz to postoji i dobro uputstvo za njih u knjizi o Perl-u).

U nastavku ce biti opisane osnove regularnih izraza (osnovna sintaksa), zatim funkcije za rad sa regularnim izrazima u PHP-u sa primerima i na kraju primeri realne upotrebe regularnih izraza.

Sintaksa regularnih izraza

Funkcije za rad sa regularnim izrazima imaju takozvani "pattern" (u nastavku teksta 'obrazac') koji odredjuje deo teksta sa kojim treba uraditi neku operaciju na osnovu nekog tekstualnog "sablona". Nadjeni tekst koji odgovara postavljenom regularnom izrazu je kontinualan - delovi nadjenog teksta ne mogu biti preskoceni, ali je moguce da postoji vise nadjenih delova teksta koji odgovaraju zadatom obrascu.

Ukoliko zelimo da nadjemo tekst 'vreme: suncano' u okviru nekog teksta, navescemo regularni izraz (obratiti paznju na to da razmak nema nikakvu specijalnu funkciju):

vreme: suncano

Medjutim, bice nadjeni samo delovi teksta koji tacno odgovaraju navedenoj sekvenci (kao str_pos() funkcija, npr.). Regularnim izrazima je moguce uraditi i mnogo vise. Recimo da ulazni tekst koji pretrazujemo moze imati sledece varijante teksta koji treba naci:

vreme: suncano
vreme:suncano
vreme: suncano
vreme suncano

Sve ovo je moguce naci jednim regularnim izrazom 'vreme:? *suncano' - da bi se omogucila ova dodatna funkcionalnost, potrebno je uvesti dodatne operatore/markere (kao ? i * u ovom primeru).

Specijalni znaci/operatori koji se koriste u okviru tekstualnog obrasca su:

. (tacka)

bilo koji karakter, ukljucujuci novi red (\n)

[spisak]

karakter koji ocekujemo moze biti samo jedan od navedenih izmedju srednjih zagrada; pri tome je moguce koristiti opsege karaktera - npr. umesto navodjenja [abcdefghijklmnopqrstuvwxyz] moze se napisati [a-z] ili umesto [abcd012345] navesti [a-d0-5]

[^spisak]

karakter ne moze biti jedan od navedenih u spisku (opisanom kao u prethodnoj stavci) - svi ostali karakteri se prihvataju

(sekvenca)

sa srednjim zagradama uokvirujemo neki deo teksta kao jednu celinu/sekvencu; recimo, ako zelimo da na neki nacin oznacimo neki deo nadjenog teksta za daljne koriscenje u funkciji ili ako zelimo da vise karaktera povezemo

sekvenca1|sekvenca2...

izbor vise mogucnosti; prvo se proverava da li je prva sekvenca odgovarajuca i ako jeste, primenjuje se (pretrazivani tekst je nadjen); ako nije, proverava se druga sekvenca i tako redom

Napomena: obratiti paznju da regularni izraz ab|c odgovara tekstu ili 'ab' ili 'c' jer se ovaj operator vezuje za prethodnu i sledecu sekvencu (ne samo jedan karakter!) Ukoliko nismo sigurni u vezi nacina vezivanja operatora, preporucuje se grupisanje uz pomoc ( i ) (slicno matematickim izrazima)

^ (kapa) i $ (dolar)

markeri za pocetak, odnosno kraj teksta - u slucaju markera za pocetak teksta (^) nastavak regularnog izraza ce biti pretrazivan od pocetka pretrazivanog teksta, odnosno ocekuje se da se pretrazivani tekst zavrsi
nekim realizacijama regularnih izraza markeri ^ i $ se odnose na pocetak, odnosno na kraj jedne linije teksta)

Pri tome pojavljivanje prethodno navedenog karaktera ili sekvence mozemo vise puta ponavljati - za to sluze sledeci operatori:

? nijedno ili jedno ponavljanje

* proizvoljan broj ponavljanja
+ jedno ili vise ponavljanja
{n} tacno n ponavljanja prethodno navedenog karaktera/sekvence
{min, max} od min do max ponavljanja

Recimo, umesto da se navodi 'aaaaaaaaaa(aaaaaa)?' mozemo napisati 'a{10,16}', ili umesto '(aa|bb)(aa|bb)(aa|bb)?' pisemo '(aa|bb){2,3}'.

Primeri (operatori su podebljani):

ab?c*d+e{4}f{2,5}
u okviru teksta koji se pretrazuje bice nadjeni delovi teksta koji pocinju slovom 'a', zatim sledi ili ne jedno slovo 'b', zatim proizvoljan broj slova 'c' (ili nijedno), potom jedno ili vise slova 'd' koji su praceni sa 4 slova 'e' i od 2 do 5 slova 'f'

[$][a-z_][a-z0-9_]+
recimo, ovaj izraz ce naci vecinu PHP promenljivih u tekstu ('$var', '$a5' i slicne)

a[^01]
nalazi sve delove teksta koji nisu oblika 'a0' ili 'a1'

lines?
nalazi 'line' ili 'lines'

(two|three) lines
nalazi 'two lines' ili 'three lines'

^[<]html[>].*[<]/html[>]$
nalazi tekst samo ako su tagovi za markiranje HTML-a na samom pocetku, odnosno na samom kraju teksta koji se pretrazuje

PHP komande za POSIX varijantu regularnih izraza

PHP funkcije koje se koriste su:

int ereg((string) $reg_pattern, (string) $text);

Vraca vrednost true ako se u $text moze naci sekvenca navedena u $reg_pattern.

int ereg((string) $reg_pattern, (string) $text, (array) $regs);

Vraca vrednost true ako se u $text moze naci sekvenca navedena u $reg_pattern. Pri tome u nizu $regs ce se naci pojedine nadjene sekvence u okviru niza. Ukoliko se u datom tekstu moze naci vise sekvenci koje odgovaraju, tada se pojedini blokovi mogu identifikovati kao clanovi ovog niza

string ereg_replace((string) $reg_pattern, (string) $replace_pattern, (string) $text);

Vrsi zamenu nadjene sekvence sa odgovarajucim tekstom $replace_pattern, pri cemu je moguce neke nadjene podsekvence ukljuciti u izlaznu vrednost. Recimo, funkcija

ereg_replace('[-]?[0-9]', '\0', $neki_html_sadrzaj)

ce vratiti HTML stranicu sa markiranim brojevima. Naime, celom tekstu nadjenom preko regularnog izraza moze se pristupiti preko \0, a segmenti koji su eventualno uokvireni preko malih zagrada se navode kao \1, \2 i sl, vec prema mestu u okviru regularnog izraza

array split((string) $delimiter_pattern, (string) $text[, limit]);

Razlaze tekst u niz, pri cemu se elementi niza redom formiraju od delova teksta izmedju sekvenci pronadjenih izmedju $delimiter_pattern.

Sve ove funkcije rade kao case-sensitive po default-u. Ukoliko zelimo da radimo sa case-insensitive pretragama, tada se koriste funkcije eregi(), eregi_replace() i spliti() koje su u svemu ostalom iste kao njihovi case-sensitive pandani.

Uvod u PERL regularne izraze

PERL regularni izrazi su nesto slozeniji (i mocniji) i, u principu, koriste istu strukturu regularnog izraza. Osnovna sintaksa PERL regularnog izraza je:

/regularni izraz/opcije

Na kraju regularnog izraza se navode opcije (recimo, slovo 'i' za case-insensitive pretrazivanje, slovo 'm' za posebno tretiranje svake linije teksta kao zasebne celine i sl), a sam regularni izraz je izdvojen/uokviren pomocu nekog specijalnog karaktera kao sto je / u okviru prethodnog primera (nije mnogo prakticno, ali tako-je-kako-je...).

PERL regularni izrazi podrzavaju i dodatne operatore, pri cemu posebnu paznju treba obratiti na nacin pretrazivanja koji se koristi - tzv. greedy vs. ungreedy. Recimo, moguce je navesti regularni izraz tipa (delimiter je #):

#[<]b[>](.*)[<]/b[>]#

koji ce naci sve HTML tagove za podebljavanje u okviru teksta koji se pretrazuje - to je takodje moguce izvesti u okviru POSIX varijante regularnih izraza, ali ta varijanta ce 'preskociti' usputna pojavljivanja zatvarajuceg taga '' i pronaci prvo i poslednje pojavljivanje ovih tagova sa kompletnim tekstom izmedju - ovo je takozvana greedy varijanta i u mnogo slucajeva onemogucava pravilno parsiranje teksta. Da bi se ovo izbeglo, u PERL varijanti se koristi operator ? (recimo, iza * u prethodnom primeru). Videti u dokumentaciji za detaljnije objasnjenje.

Osim toga, moguce je raditi i pretrazivanje prema nekoj sekvenci ranije koriscenoj u okviru izraza. Recimo, sledeca varijanta nalazi sve 'proste' tagove u okviru pretrazivanog teksta:

#[<]([^>]+)[>](.*?)[<]/\1[>]#i

Uociti da se koristi \1 za pretragu teksta koji je nadjen u okviru otvarajuceg taga (u okviru markirane sekvence izmedju malih zagrada). Npr, nadjeni delovi teksta ce biti 'Naslov' i 'ovo je italic', ali ne i 'mesano'. U POSIX varijanti ovo nije moguce.
Za daljne citanje

Vise o regularnim izrazima mozete naci na:

* PHP manual - poglavlja sa Regular Expression Functions (Perl i POSIX extended)
* Knjiga o Perl-u: Mastering Regular Expressions
* Knjiga o Regularnim izrazima: Programming Perl
--------------------------------------------------------------

toliko.

12. 06. 2007.	#1
cvele Banned Knowledge base Datum učlanjenja: 01.07.2005 Poruke: 1.598 Hvala: 206 140 "Hvala" u 89 poruka	Regular Expressions Kao fallowup iz jedne predhodne teme, mislim da bi bilo korisno da sa vama podelim jedan prilicno dobar i jednostavan clanak na gore pomenutu temu Autor: Goran /Regexp/i Savić -------------------------------------------------- Opste o regularnim izrazima Regularni izrazi (eng. Regular Expressions) su pomocna i vrlo korisna alatka za parsiranje teksta. Pomocu njih je moguce uraditi pretrazivanje/izdvajanje odredjenih obrazaca teksta, uraditi zamenu teksta i slicne manipulacije istim. Prakticnost regularnih izraza se ogleda u tome da bi odgovarajuci programski ekvivalent regularnih izraza bio nemerljivo duzi i komplikovaniji za realizaciju uz mnogo vise vremena potrebnog za postavljanje/izmene - uz to, regularni izrazi su, u principu, nezavisni od programske platforme. Kao programske funkcije postoje u raznim implementacijama raznih programskih jezika i to u varijantama Posix (standardizovani Unix) i tzv. Perl kompatibilni izrazi. Iako u PHP-u postoji podrska za oba standarda, ovde ce biti objasnjena samo Posix varijanta, s obzirom da se Perl varijanta (kao jaca i slozenija) moze shvatiti kao nadgradnja prethodne (a uz to postoji i dobro uputstvo za njih u knjizi o Perl-u). U nastavku ce biti opisane osnove regularnih izraza (osnovna sintaksa), zatim funkcije za rad sa regularnim izrazima u PHP-u sa primerima i na kraju primeri realne upotrebe regularnih izraza. Sintaksa regularnih izraza Funkcije za rad sa regularnim izrazima imaju takozvani "pattern" (u nastavku teksta 'obrazac') koji odredjuje deo teksta sa kojim treba uraditi neku operaciju na osnovu nekog tekstualnog "sablona". Nadjeni tekst koji odgovara postavljenom regularnom izrazu je kontinualan - delovi nadjenog teksta ne mogu biti preskoceni, ali je moguce da postoji vise nadjenih delova teksta koji odgovaraju zadatom obrascu. Ukoliko zelimo da nadjemo tekst 'vreme: suncano' u okviru nekog teksta, navescemo regularni izraz (obratiti paznju na to da razmak nema nikakvu specijalnu funkciju): vreme: suncano Medjutim, bice nadjeni samo delovi teksta koji tacno odgovaraju navedenoj sekvenci (kao str_pos() funkcija, npr.). Regularnim izrazima je moguce uraditi i mnogo vise. Recimo da ulazni tekst koji pretrazujemo moze imati sledece varijante teksta koji treba naci: vreme: suncano vreme:suncano vreme: suncano vreme suncano Sve ovo je moguce naci jednim regularnim izrazom 'vreme:? suncano' - da bi se omogucila ova dodatna funkcionalnost, potrebno je uvesti dodatne operatore/markere (kao ? i u ovom primeru). Specijalni znaci/operatori koji se koriste u okviru tekstualnog obrasca su: . (tacka) bilo koji karakter, ukljucujuci novi red (\n) [spisak] karakter koji ocekujemo moze biti samo jedan od navedenih izmedju srednjih zagrada; pri tome je moguce koristiti opsege karaktera - npr. umesto navodjenja [abcdefghijklmnopqrstuvwxyz] moze se napisati [a-z] ili umesto [abcd012345] navesti [a-d0-5] [^spisak] karakter ne moze biti jedan od navedenih u spisku (opisanom kao u prethodnoj stavci) - svi ostali karakteri se prihvataju (sekvenca) sa srednjim zagradama uokvirujemo neki deo teksta kao jednu celinu/sekvencu; recimo, ako zelimo da na neki nacin oznacimo neki deo nadjenog teksta za daljne koriscenje u funkciji ili ako zelimo da vise karaktera povezemo sekvenca1\|sekvenca2... izbor vise mogucnosti; prvo se proverava da li je prva sekvenca odgovarajuca i ako jeste, primenjuje se (pretrazivani tekst je nadjen); ako nije, proverava se druga sekvenca i tako redom Napomena: obratiti paznju da regularni izraz ab\|c odgovara tekstu ili 'ab' ili 'c' jer se ovaj operator vezuje za prethodnu i sledecu sekvencu (ne samo jedan karakter!) Ukoliko nismo sigurni u vezi nacina vezivanja operatora, preporucuje se grupisanje uz pomoc ( i ) (slicno matematickim izrazima) ^ (kapa) i $ (dolar) markeri za pocetak, odnosno kraj teksta - u slucaju markera za pocetak teksta (^) nastavak regularnog izraza ce biti pretrazivan od pocetka pretrazivanog teksta, odnosno ocekuje se da se pretrazivani tekst zavrsi nekim realizacijama regularnih izraza markeri ^ i $ se odnose na pocetak, odnosno na kraj jedne linije teksta) Pri tome pojavljivanje prethodno navedenog karaktera ili sekvence mozemo vise puta ponavljati - za to sluze sledeci operatori: ? nijedno ili jedno ponavljanje * proizvoljan broj ponavljanja + jedno ili vise ponavljanja {n} tacno n ponavljanja prethodno navedenog karaktera/sekvence {min, max} od min do max ponavljanja Recimo, umesto da se navodi 'aaaaaaaaaa(aaaaaa)?' mozemo napisati 'a{10,16}', ili umesto '(aa\|bb)(aa\|bb)(aa\|bb)?' pisemo '(aa\|bb){2,3}'. Primeri (operatori su podebljani): ab?cd+e{4}f{2,5} u okviru teksta koji se pretrazuje bice nadjeni delovi teksta koji pocinju slovom 'a', zatim sledi ili ne jedno slovo 'b', zatim proizvoljan broj slova 'c' (ili nijedno), potom jedno ili vise slova 'd' koji su praceni sa 4 slova 'e' i od 2 do 5 slova 'f' [$][a-z_][a-z0-9_]+ recimo, ovaj izraz ce naci vecinu PHP promenljivih u tekstu ('$var', '$a5' i slicne) a[^01] nalazi sve delove teksta koji nisu oblika 'a0' ili 'a1' lines? nalazi 'line' ili 'lines' (two\|three) lines nalazi 'two lines' ili 'three lines' ^[<]html[>].[<]/html[>]$ nalazi tekst samo ako su tagovi za markiranje HTML-a na samom pocetku, odnosno na samom kraju teksta koji se pretrazuje PHP komande za POSIX varijantu regularnih izraza PHP funkcije koje se koriste su: int ereg((string) $reg_pattern, (string) $text); Vraca vrednost true ako se u $text moze naci sekvenca navedena u $reg_pattern. int ereg((string) $reg_pattern, (string) $text, (array) $regs); Vraca vrednost true ako se u $text moze naci sekvenca navedena u $reg_pattern. Pri tome u nizu $regs ce se naci pojedine nadjene sekvence u okviru niza. Ukoliko se u datom tekstu moze naci vise sekvenci koje odgovaraju, tada se pojedini blokovi mogu identifikovati kao clanovi ovog niza string ereg_replace((string) $reg_pattern, (string) $replace_pattern, (string) $text); Vrsi zamenu nadjene sekvence sa odgovarajucim tekstom $replace_pattern, pri cemu je moguce neke nadjene podsekvence ukljuciti u izlaznu vrednost. Recimo, funkcija ereg_replace('[-]?[0-9]', '<b>\0</b>', $neki_html_sadrzaj) ce vratiti HTML stranicu sa markiranim brojevima. Naime, celom tekstu nadjenom preko regularnog izraza moze se pristupiti preko \0, a segmenti koji su eventualno uokvireni preko malih zagrada se navode kao \1, \2 i sl, vec prema mestu u okviru regularnog izraza array split((string) $delimiter_pattern, (string) $text[, limit]); Razlaze tekst u niz, pri cemu se elementi niza redom formiraju od delova teksta izmedju sekvenci pronadjenih izmedju $delimiter_pattern. Sve ove funkcije rade kao case-sensitive po default-u. Ukoliko zelimo da radimo sa case-insensitive pretragama, tada se koriste funkcije eregi(), eregi_replace() i spliti() koje su u svemu ostalom iste kao njihovi case-sensitive pandani. Uvod u PERL regularne izraze PERL regularni izrazi su nesto slozeniji (i mocniji) i, u principu, koriste istu strukturu regularnog izraza. Osnovna sintaksa PERL regularnog izraza je: /regularni izraz/opcije Na kraju regularnog izraza se navode opcije (recimo, slovo 'i' za case-insensitive pretrazivanje, slovo 'm' za posebno tretiranje svake linije teksta kao zasebne celine i sl), a sam regularni izraz je izdvojen/uokviren pomocu nekog specijalnog karaktera kao sto je / u okviru prethodnog primera (nije mnogo prakticno, ali tako-je-kako-je...). PERL regularni izrazi podrzavaju i dodatne operatore, pri cemu posebnu paznju treba obratiti na nacin pretrazivanja koji se koristi - tzv. greedy vs. ungreedy. Recimo, moguce je navesti regularni izraz tipa (delimiter je #): #[<]b[>](.)[<]/b[>]# koji ce naci sve HTML tagove za podebljavanje u okviru teksta koji se pretrazuje - to je takodje moguce izvesti u okviru POSIX varijante regularnih izraza, ali ta varijanta ce 'preskociti' usputna pojavljivanja zatvarajuceg taga '</b>' i pronaci prvo i poslednje pojavljivanje ovih tagova sa kompletnim tekstom izmedju - ovo je takozvana greedy varijanta i u mnogo slucajeva onemogucava pravilno parsiranje teksta. Da bi se ovo izbeglo, u PERL varijanti se koristi operator ? (recimo, iza u prethodnom primeru). Videti u dokumentaciji za detaljnije objasnjenje. Osim toga, moguce je raditi i pretrazivanje prema nekoj sekvenci ranije koriscenoj u okviru izraza. Recimo, sledeca varijanta nalazi sve 'proste' tagove u okviru pretrazivanog teksta: #[<]([^>]+)[>](.?)[<]/\1[>]#i Uociti da se koristi \1 za pretragu teksta koji je nadjen u okviru otvarajuceg taga (u okviru markirane sekvence izmedju malih zagrada). Npr, nadjeni delovi teksta ce biti '<b>Naslov</B>' i '<i>ovo je italic</i>', ali ne i '<b>mesano</i>'. U POSIX varijanti ovo nije moguce. Za daljne citanje Vise o regularnim izrazima mozete naci na:* * PHP manual - poglavlja sa Regular Expression Functions (Perl i POSIX extended) * Knjiga o Perl-u: Mastering Regular Expressions * Knjiga o Regularnim izrazima: Programming Perl -------------------------------------------------------------- toliko.