Cimovanje sa regexpovima... [Arhiva]

Pogčedajte punu verziju : Cimovanje sa regexpovima...

Ilija Studen

18. 11. 2006., 21:12

Ovo je najverovatnije strašno jednostavno, ali opet... Treba mi regex koji će matchovati sledeći tip stringa.

?var1=12&var2=13

Sam string je opcion (kompletna stvar može biti prazna) i nije potrebna strktna provera formata dela sa parametrima. Jednostavno, da se vidi da li postoji i ako postoji da izvučem query string kako bih ga mogao procesirati u kodu.

Background story, ako nekog zanima:

Pravim jednostavan sistem za rutiranje koji je u stanju da definicije URL-a tipa:

/:controller/:action/:id

Mapira sa odgovarajućom akcijom kontrolera i setuje odgovarajuće promenljive izvučene iz URL-a (u ovom slučaju samo ID). Ima tu još par zanimljivih osobina tipa default vrednosti, dodatni uslovi itd. Taj deo nije problem, on prolazi testove i prilično se fino ponaša. Ono što bih hteo da dodam je podrška za query string. Tipa:

/foo/:action/*

Gde * označava da navedena ruta može da ima i opcioni query string. Tada bi valida URL bio:

"/foo/do_this/" ili "/foo/do_this/?page=12&order_by=name&per_page=100"

To mi treba jer nekim parametrima (kao gore navedenim parametrima sortiranja) nije mesto u definiciji URL-a. Ako su potrebni prosleđuju se kao dodatni parametri.

Bah, jako mnogo priče za jednostavan problem. Mada opet, meni je cela priča oko pravljenja klasa koje rukuju sa rutiranjem uvek bila zanimljiva.

noviKorisnik

18. 11. 2006., 21:21

$_server ['query_string'] ?

(edit - sve ovo gore naravno velikim slovima, nego misli sajt da se derem pa me utišava :-)

Ilija Studen

18. 11. 2006., 21:54

$_server ['query_string'] ?

(edit - sve ovo gore naravno velikim slovima, nego misli sajt da se derem pa me utišava :-)

Krajnje jednostavno rešenje koje radio posao. Thanks

Btw, ona stara priča. Programer naleti na jedan zanimljiv problem i odluči da za rešenje koristi regexpove. Sada odjednom ima... dva problema :)

Blood

18. 11. 2006., 21:58

Btw, ona stara priča. Programer naleti na jedan zanimljiv problem i odluči da za rešenje koristi regexpove. Sada odjednom ima... dva problema :)

Ja sam mislio da to pravilo vazi za xml :)

Petar Marić

18. 11. 2006., 22:23

Some people, when confronted with a problem, think “I know, I'll use regular expressions.” Now they have two problems.
--Jamie Zawinski, in comp.emacs.xemacs

Izvor (http://www.diveintopython.org/regular_expressions/summary.html)

ivanhoe

19. 11. 2006., 01:42

^^ blah, to je stav ljudi koji ne znaju (dovoljno dobro) da koriste regExp, pa im je sve to u domenu vudu magije... regular expression nisu nikakva velika i misteriozna stvar, zapravo su vrlo prosti jednom kad se naviknete na obskurnu sintaxu..

bluesman

19. 11. 2006., 04:35

^ Now we have three problems: this guy actualy loves it :)

...vrlo prosti a obskurna sintaksa... meni lici na definiciju voodoo magic, man :)

jablan

19. 11. 2006., 09:25

RI su moćni i komplikovani (ja bih ih radije nazvao prostim ali jako nečitkim). Da nisu komplikovani ne bi bili toliko moćni i obrnuto.

Fora je u tome znati kad ih treba koristiti, a kad ne, a takve odluke su stvar iskustva.

PS. Neko je pomenuo XML. Pandan regexp-ovima u svetu XML-a je tzv. XSD, odnosno XML šema. Bez obzira što je deskriptivnija od regexp-ova, nije puno čitkija.

Petar Marić

19. 11. 2006., 10:32

Moj stav "je right tool for the right job". Regexp-ovi to ponekad jesu, a IMHCO mnogo češće nisu.

Ilija Studen

19. 11. 2006., 10:38

blah, to je stav ljudi koji ne znaju (dovoljno dobro) da koriste regExp, pa im je sve to u domenu vudu magije... regular expression nisu nikakva velika i misteriozna stvar, zapravo su vrlo prosti jednom kad se naviknete na obskurnu sintaxu..

Samo nikako da se naviknem :)

Stvarno se retko srećem sa situacijama kada mi trebaju regex-ovi, a onda uglavnom shakujem nešto da radi ili postavim neku ovakvu temu. I tako u krug.

Btw, rešenje je bilo krajnje jednostavno. Regex za izvlačenje parčadi iz path dela URL-a, parse_str za parsiranje query stringa. Testovi prolaze i ja happy.

ivanhoe

19. 11. 2006., 15:07

ja radim spajdere koji skupljaju razne podatke sa web-a, i zato sam morao da savladam regExpe. Oni imaju vrlo specificnu upotrebu kod obrade stringova gde se traze odredjeni patterni, ali ne znas sve elemente patterna (pa ne moze direktno poredjenje karaktera da se koristi) i za takve probleme su apsolutno najednostavniji i najefikasniji pristup, a cesto ne bi ni moglo da se uradi, bez da pisem svoj parser.

Ako ti to ne treba onda te bas briga (ali obicno pre ili kasnije ti zatreba neka validacija nekog email ili CC polja..)

a zapravo nije regExp ni toliko komplikovan, ima 10-tak pravila i zahteva malo logicnog razmisljanja i to je sasvim dovoljno za osnovnu upotrebu. A vrlo je korisno znati ih, em mogu da ti ustede mnogo programerskog truda, em sto se u linux svetu koriste nasiroko, pa dosta alata (npr. grep, mod_rewrite) koristi istu tu sintaxu..

Petar Marić

19. 11. 2006., 18:31

ivanhoe

19. 11. 2006., 19:50

Ovog semestra na faxu imamo predmet "Programski prevodioci".
Cilj predmeta je bolje razumevanja kako komercijalni kompajleri rade, a kao nusprodukt tog procesa izrađujemo sopstveni C kompajler (naravno "osakaćen").

RegExp-ovi nam puno pomažu (koristimo ih u skeneru), ali ih ne guramo svuda - u parseru se ipak koristi EBNF za prepoznavanje pojmova (zato što je baratanje specijalnim slučajevima na taj način lakše).

koliko se ja secam teorije iz prevodilaca (davno sam polozio doduse) ne moze se svaki jezik prikazati preko EBNF, recimo secam se da je Pascal jedan od retkih koji moze u potpunosti...

TOP-DOWN parsere nije tesko pisati bez regExp-a, ali za BOTTOM-UP parsere (koji se uglavnom koriste u praxi) cete verovatno koristiti LEX i YACC (odnosno GNU verzije Flex i Bizon), a oni interno koriste sintaxu vrlo slicnu regExp-u za definisanje pravila...

Petar Marić

19. 11. 2006., 22:08

TOP-DOWN parsere nije tesko pisati bez regExp-a, ali za BOTTOM-UP parsere (koji se uglavnom koriste u praxi) cete verovatno koristiti LEX i YACC (odnosno GNU verzije Flex i Bizon), a oni interno koriste sintaxu vrlo slicnu regExp-u za definisanje pravila...
Hehe, dobro se sećaš ;)

LEX odista koristi regexpove, dok YACC koristi EBNF.

ThunderMonkey

20. 11. 2006., 10:22

Evo jedne zanimljive aplikacije koja moze da vam olaksa zivot u pisanju istih (regexpova). Btw, zahteva .Net framework 1.1

http://www.radsoftware.com.au/regexdesigner/

dinke

20. 11. 2006., 12:54

Moj tutorijal na istu temu na tehnopolisu: http://www.b92.net/tehnopolis/internet.php?nav_id=213461&start=10
(na kraju clanka postoje i neki korisni linkovi).

Inace, i ja poput ivanhoe imam takav posao da mi je znanje regexp-a neophodno, a ponekad sam prinudjen da pisem patterne koji su duzi od 3 reda. Recimo, pisanje scripta koji uzima listu cctdl domena sa nekog tamo sajta i sl stvari :)

Petar Marić

20. 11. 2006., 15:17

Inace, i ja poput ivanhoe imam takav posao da mi je znanje regexp-a neophodno, a ponekad sam prinudjen da pisem patterne koji su duzi od 3 reda. Recimo, pisanje scripta koji uzima listu cctdl domena sa nekog tamo sajta i sl stvari :)Screen scraping?