[C++] Regular expression i ćirlična slova
Problem je sledeći:
Hoću da "uzmem" sve "unikatne" reči iz teksta i izračunam koliko puta se pojavljuju u istom. Iskopirao sam neke naše poslovice (ćiriličnim slovima pisane) i sačuvao sa notepad-om kao UTF8 fajl. Onda sam priključio UTF8 biblioteku (od autora "Dragi Tata" koji je član ovog foruma, ne mogu sad da nađem pravo ime i prezime :1019:) da izkonvertujem taj text iz UT8 u UTF16 (std::wstring) i pokrenem regex na to: (win7, VS 2010 C++) Kôd:
#include <iostream> Na boldiranom delu iz koda dobijam regex exception, ali patern bi trebao da bude standardan/regularan, ne razumem WTF? Kôd:
std::wregex pattern(L"\\b[\\p{L}]+\\b"); Hvala unapred za ideje. |
Evo napamet (ne bi bilo lose da das trejs) - da nije problem sto mu saljes wchar kao regex (ovo L ispred literala).
Druga stvar koja moze biti je da koristis klase unicode karaktera (\p{L}) - koje kolko vidim u dokumentaciji boost regex ne podrzava. Tacnije dosta stvari ne podrzava vezane za unicode. Pogledaj http://www.boost.org/doc/libs/1_38_0...x/unicode.html Ovo sve napamet pisem - nisam programirao u C++ godinama, a i nikad mi nije palo da ga koristim za regex. Mene jako interesuje zasto koristis C++ za nesto sto je jedna linija u perl/ruby/python/bash-u |
Offtopic:
python oneliner koji ce uraditi sta ti treba (znam da ti ne resava problem :), ali ako neko hoce golfa da se igra): Kôd:
l = "".join(map(lambda c: " " if c in "?.!-,\"\'\/\\()" else c, open("file.txt").read())).split(); d= set((w, len(filter(lambda ww: ww==w, l))) for w in l); print d |
Citat:
Nema konkretnih detalja zašto baca exception, predpostavljam zato što ne podržava \p{L} metakaraktere, što si i ti rekao. Ovako kako stoje stvari wregex je beskoristan, nadam se samo da će u nekoj sledećoj verziji VS-a srediti njegovu funkcionalnost. Citat:
Jedino da probam ovu ICU biblioteku što predlažu, ako uspem da se snađem da inkorporiram. Hvala u svakom slučaju. |
Igranje sa tekstom jednostavno nije nesto za sta se C++ koristi i to ti nije bas dobra tema za vezbanje C++ a.
C++ je interesantan ako hoces da vezbas osnove algoritama - npr da napises neki sort ili zanimljivu strukturu podataka. Zanimljiv je i za mrezno programiranje naprimer. |
Citat:
Kôd:
p IO.read('file.txt').scan(/\p{L}+/u).group_by{|e|e}.map{|k,v|[k,v.count]} Citat:
|
Coveku jasno treba pomoc u C++..
Ako ne umete da napisete resenje u C++ za ovaj problem sto covek ima, nekako se samo namece da bas i ne poznajete isti, pa onda nekako i ne stoji bas da treba da komentarisete C++ tipa za ovo je dobar, za ovo nije. Jbte, dokle vise moramo da trpimo ovakve gluposti ovde: covek pita za X i lepo kaze treba mu za X, ali evo ti bato resenje za Y, a X ti nije dobar.. hehe. |
Citat:
Pokusao sam da pomognem - cak sam dao coveku i link ka dokumentaciji... a onda sam dao i svoje misljenje - to to ne sme vise ili sta? |
^Hteo sam da dodam P.S. Moj komentar se ne odnosi na prvi deo djipkove poruke, ali me mrzelo iskreno..
Stvar je da je postala uobicajena stvar da se na ovom forumu za problem u X, daje resenje u Y, uz komentar da X ionako ne valja za to :) Nema smisla.. Bar da ima neke slicnosti, npr. da je u pitanju MySQL vs T-SQL resenje, pa ajde. |
Citat:
|
Ne slazem se ni sa time - covek je pitao kako da isparsira tekst koristeci C++ i regularne izraze.
Ako u toj situaciji stvarno mislis da "C++ ti mozda nije najbolji za to" nije koristan savet da se doda na kraju - onda se povlacim. |
Vidi, tupimo.. ali ako neko uci C++, ne znam kako ce da ga nauci ako ne radi u istom?
A i inace, ako ces za svaki problem da resenje trazis u drugom jeziku gde je to (MOZDA) lakse, ne znam sta ces ikada da naucis. |
Zaboravio si da podvučeš i bolduješ, da ne čuje zlo:
Citat:
|
Ti si zaboravio da napises resenje u Rubiju.
Ajd sta cekas.. ima smisla, covek bi da uci C++. |
^ Kako je zaboravio - pa vidi koliko je resenje na prethodnoj strani (hint: toliko je malo da ga nisi ni video) ;)
|
Heheh :) Ma video sam, al pojma nemam sta je, samo mi je izgledalo da nije C++, sto je meni bilo dovoljno.
Imate jos neko resenje da nije C++? |
Da sam 15 godina mladji, dao bi ti iz glave u LISP-u ;)
|
Hteo sam da probam neki drugi pattern ali ne mogu da nađem, odnosno ne znam kako bih tražio tu "stvar", valjda se zove "opseg code pointa" za našu ćirlicu (utf16 pošto sam na windowsu), znači išlo bi nešto ovako:
Kôd:
\b[\x???-\x???]+\b EDIT: Uuuups. Izvinjavam se. Izgleda da mi treba \u verzija: Citat:
|
Sad sam probao ovo:
Kôd:
std::wregex pattern(L"\\b[\\u0401-\\u0449]+\\b"); Ako neko može da mi potvrdi da li je to to što sam tražio? Ali i ovo ne matchuje ništa, da li je korektna sintaksa? |
Ja ne bih rekao, ne matchuje sve...
U stvari nešto zeza... Ali ne znam da li je taj u C++ "Perl Compatible Regular Expressions" tako da... :) |
^ Ruski alfabet nema J i Ć, zato zeza. ;)
BTW: http://rubular.com/r/X5ZXPMBqQl Ali to je Ruby endžin ispod, ko zna da li to radi u Win32 ili šta već tera taj C++. |
Koliko sam razumeo, po defaultu C++ standard regex (iplementacija uzeta od Boost-a) koristi ECMAScript "gramatiku", to je valjda nesto slicno Perl-u?
Citat:
E sad ovi "flagovi" mogu da se menjaju ako postavim neki drugi kao paramatar u konstruktoru regex-a, samo ne znam da li ce biti neke razlike posto sam negde procitao da ovaj ECMAScript sadrzi sve sto i ostali. |
я vidiš na to nisam obraćao pažnju :)
|
Ljudi treba mi zamena za word boundari \b, nešto me ovo zeza kad se ukombinuje sa Unicode karakterima. Gledao sam nešto na wikipediji, ali ne razuem njihov "kod":
Kôd:
[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)] Ako može neko da malo pojasni o čemu se radi? Prevod? Hvala. |
?<= positive lookbehind
?= positive lookahead http://www.regular-expressions.info/lookaround.html Pokušaj npr. [\u0400-\u04FF]+ http://www.regular-expressions.info/unicode.html Ili npr. sve osim razmaka, tačke, zareza... [^\s.,]+ |
Da li sam dobro skapirao?
Kôd:
kod: [(?<=\\W)(?=\\w) |
Sad sam probao nesto da stavim umesto \b :
Kôd:
([\\u0400-\\u04FF])([^\\u0400-\\u04FF])[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)] Da nisam pogresio sa \1 i \2? \1 koliko razumem se odnosi na izraz u prvoj zagradi a \2 za izraz u drugoj zagradi? Jel? Kôd:
\1 =>([\\u0400-\\u04FF]) |
Nisam baš vešt u objašnjavanju, a i ne znam C++ (nešto malo) pa tako nisam siguran, pišem na osnovu onoga što znam iz php, js...
(?<!\w)(?=\w) ili kao u tvom primeru (?<=\\W)(?=\\w) je zamena za \b na početku stringa (?<=\w)(?!\w) odnosno (?<=\\w)(?=\\W) je zamena za \b na kraju stringa (?<=\\W)(?=\\w) pronađi "karakter" ispred koga je ne-alfanumerički karakter i iza koga je alfanumerički karakter (?<=\\w)(?=\\W) pronađi "karakter" ispred koga je alfanumerički karakter i iza koga je ne-alfanumerički karakter Pa tako umesto \bSUBJECT\b može se napisati (?<=\\W)(?=\\w)SUBJECT(?<=\\w)(?=\\W) A (?<=\W)(?=\w)|(?<=\w)(?=\W) bi trebalo da pronađe sve "word boundaries" u tekstu. http://www.regular-expressions.info/wordboundaries.html A [] pretstavljaju Character Classes: http://www.regular-expressions.info/charclass.html Pa bi tako: [(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)] Pronađi jedan od karaktera iz grupe u zagradama [], dakle pronađi ( ili ? ili < ili = ili \W ili ... A za backreference: http://www.regular-expressions.info/brackets.html i mislim da ih nije moguće koristiti unutar [] (character Classes) |
Aha, sad vidim gde sam pogresio. Probao sam sad ovo i radi ovde.
Ali u VS-u moram da dodam plus po jedan '\' da mi ne bi reisformatirao pattern jer M$ kompajler takodje koristi taj karakter za njegove "metakaraktere/escape seq." (kako da ih nazovem vise), pa mi regex izbacuje exception: Citat:
Kôd:
(?<![\\u0400-\\u04FF])MOJA_REC_KOJU_TESTIRAM(?![\\u0400-\\u04FF]); sa jednim '\': sa dva '\': Za oba je syntax error exception. |
Sad sam probao nesto, izgleda da std::regex ne podrzava "lookaround". :1083:
Kôd:
#include <iostream> Citat:
|
A zašto uopšte gledaš karaktere oko reči? Kapiram da tebe interesuju samo reči, ne i ono oko njih?
|
^ I ja se pitam... @morando, koja je razlika naspram ovoga... http://rubular.com/r/GviWLmoGz3
|
To sam uradio u prvom prolazu:
Kôd:
std::set<std::wstring> s_words; I onda drugi prolaz koristim taj set reci da proverim koliko puta se ponavlja svaka ta rec: Kôd:
std::set<std::wstring>::iterator send = s_words.end(); Mislim, mogu to sve u prvom prolazu, ali dajem sebi za primer ako trazim bas neku specificnu rec, recimo: Kôd:
nadji rec: и |
MS and Unicode, still a better love story than Twilight :D
Ja bih u 3 navrata to uradio... početak, kraj, i sredina. ^(и)[^\u0400-\u04FF] [^\u0400-\u04FF](и)$ [^\u0400-\u04FF](и)[^\u0400-\u04FF] Ostaje ti i preg_split (tako se u PHP zove), i onda da prebrojiš koliko ima takvih riječi u arrayu :) |
Vreme je GMT +2. Trenutno vreme je 21:48. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.