DevProTalk - [C++] Regular expression i ćirlična slova

DevProTalk (http://www.devprotalk.com/index.php)

- Programiranje (http://www.devprotalk.com/forumdisplay.php?f=23)

- - [C++] Regular expression i ćirlična slova (http://www.devprotalk.com/showthread.php?t=10800)

morando

16. 02. 2012. 21:33

[C++] Regular expression i ćirlična slova

Problem je sledeći:
Hoću da "uzmem" sve "unikatne" reči iz teksta i izračunam koliko puta se pojavljuju u istom.
Iskopirao sam neke naše poslovice (ćiriličnim slovima pisane) i sačuvao sa notepad-om kao UTF8 fajl. Onda sam priključio UTF8 biblioteku (od autora "Dragi Tata" koji je član ovog foruma, ne mogu sad da nađem pravo ime i prezime :1019:) da izkonvertujem taj text iz UT8 u UTF16 (std::wstring) i pokrenem regex na to:
(win7, VS 2010 C++)

Kôd:

#include <iostream>

#include <fstream>

#include <string>

#include <sstream>

#include <vector>

#include <set>

#include <map>

#include <regex>

#include <limits>

#include <locale>

#include "utf8.h"



int main()

{

        try

        {

                std::ifstream in_file("file.txt");



                std::vector<std::wstring> v_utf16_lines;

                std::string line;

                while(std::getline(in_file, line))

                {

                        std::wstring utf16line;

                        utf8::utf8to16(line.begin(), line.end(), std::back_inserter(utf16line));

                        v_utf16_lines.push_back(utf16line);

                }



                in_file.close();



                //std::wregex::flag_type reg_flags = std::regex_constants::ECMAScript;



                std::set<std::wstring> s_words;

                for(std::size_t i = 0; i < v_utf16_lines.size(); ++i)

                {

                        std::wregex pattern(L"\\b[\\p{L}]+\\b");

                        const std::wsregex_token_iterator end;

                        std::wsregex_token_iterator ti(v_utf16_lines[i].begin(), v_utf16_lines[i].end(), pattern);

                        for(; ti != end; ++ti)

                        {

                                s_words.insert(*ti);

                        }

                }



                std::string out_str;



                std::set<std::wstring>::iterator send = s_words.end();

                std::set<std::wstring>::iterator sit = s_words.begin();

                for(; sit != send; ++sit)

                {

                        std::size_t w_freq = 0;

                        std::wregex pattern(L"\\b" + (*sit) + L"\\b");



                        for(std::size_t i = 0; i < v_utf16_lines.size(); ++i)

                        {

                                const std::wsregex_token_iterator end;

                                std::wsregex_token_iterator ti(v_utf16_lines[i].begin(), v_utf16_lines[i].end(), pattern);

                                for(; ti != end; ++ti)

                                { ++w_freq; }

                        }



                        std::string utf8_line;

                        utf8::utf16to8((*sit).begin(), (*sit).end(), std::back_inserter(utf8_line));



                        out_str += "Word \"";

                        out_str += utf8_line;

                        out_str += "\", freq = ";

                        std::stringstream conv;

                        conv << w_freq;

                        std::string sfreq;

                        conv >> sfreq;

                        out_str += sfreq;

                        out_str += '\n';

                }



                std::ofstream out_file("result.txt", std::ios::binary);

                out_file.write(out_str.c_str(), out_str.size());

                out_file.close();



        }

        catch(const std::exception& e)

        {

                std::cout << e.what() << std::endl;

        }



    std::cout << "Press enter to exit..." << std::endl;

    std::cin.ignore( std::numeric_limits< std::streamsize >::max(), '\n' );

    return 0;

}

Evo i slike koja pokazuje da je konverzija uspela:

Na boldiranom delu iz koda dobijam regex exception, ali patern bi trebao da bude standardan/regularan, ne razumem WTF?

Kôd:

std::wregex pattern(L"\\b[\\p{L}]+\\b");

Ovo bi trebalo da pokupi sve reči?

Hvala unapred za ideje.

djipko

17. 02. 2012. 10:07

Evo napamet (ne bi bilo lose da das trejs) - da nije problem sto mu saljes wchar kao regex (ovo L ispred literala).

Druga stvar koja moze biti je da koristis klase unicode karaktera (\p{L}) - koje kolko vidim u dokumentaciji boost regex ne podrzava. Tacnije dosta stvari ne podrzava vezane za unicode. Pogledaj http://www.boost.org/doc/libs/1_38_0...x/unicode.html

Ovo sve napamet pisem - nisam programirao u C++ godinama, a i nikad mi nije palo da ga koristim za regex.

Mene jako interesuje zasto koristis C++ za nesto sto je jedna linija u perl/ruby/python/bash-u

djipko

17. 02. 2012. 11:56

Offtopic:

python oneliner koji ce uraditi sta ti treba (znam da ti ne resava problem :), ali ako neko hoce golfa da se igra):

Kôd:

l = "".join(map(lambda c: " " if c in "?.!-,\"\'\/\\()" else c, open("file.txt").read())).split(); d= set((w, len(filter(lambda ww: ww==w, l))) for w in l); print d

morando

17. 02. 2012. 12:18

Citat:

Evo napamet (ne bi bilo lose da das trejs) - da nije problem sto mu saljes wchar kao regex (ovo L ispred literala).

Imaju dve "verzije" regexa, regex (single byte character set) i wregex (wide/multibyte) pa moram da stavim L ispred litelarne konstante jer je takava sintaksa, a i ne mogu da tražim unicode karaktere sa ovom prvom verzijom?
Nema konkretnih detalja zašto baca exception, predpostavljam zato što ne podržava \p{L} metakaraktere, što si i ti rekao.
Ovako kako stoje stvari wregex je beskoristan, nadam se samo da će u nekoj sledećoj verziji VS-a srediti njegovu funkcionalnost.

Citat:

Mene jako interesuje zasto koristis C++ za nesto sto je jedna linija u perl/ruby/python/bash-u.

E pa nije mi cilj uraditi zadatak, već učiti C++ jezik, klase i funkcije njegove standardne biblioteke.

Jedino da probam ovu ICU biblioteku što predlažu, ako uspem da se snađem da inkorporiram.

Hvala u svakom slučaju.

djipko

17. 02. 2012. 12:44

Igranje sa tekstom jednostavno nije nesto za sta se C++ koristi i to ti nije bas dobra tema za vezbanje C++ a.

C++ je interesantan ako hoces da vezbas osnove algoritama - npr da napises neki sort ili zanimljivu strukturu podataka. Zanimljiv je i za mrezno programiranje naprimer.

jablan

17. 02. 2012. 15:49

Citat:

Originalno napisao djipko (Napišite 105183)

Offtopic:
python oneliner koji ce uraditi sta ti treba (znam da ti ne resava problem :), ali ako neko hoce golfa da se igra):

Evo ja ću ;)

Kôd:

p IO.read('file.txt').scan(/\p{L}+/u).group_by{|e|e}.map{|k,v|[k,v.count]}

Citat:

Originalno napisao djipko (Napišite 105186)

Igranje sa tekstom jednostavno nije nesto za sta se C++ koristi i to ti nije bas dobra tema za vezbanje C++ a.

Pa dobro, može i za tekst, ako ti treba baš velika brzina ili precizan memory menadžment. A to ima svoju cenu. :)

degojs

17. 02. 2012. 16:08

Coveku jasno treba pomoc u C++..

Ako ne umete da napisete resenje u C++ za ovaj problem sto covek ima, nekako se samo namece da bas i ne poznajete isti, pa onda nekako i ne stoji bas da treba da komentarisete C++ tipa za ovo je dobar, za ovo nije.

Jbte, dokle vise moramo da trpimo ovakve gluposti ovde: covek pita za X i lepo kaze treba mu za X, ali evo ti bato resenje za Y, a X ti nije dobar.. hehe.

djipko

17. 02. 2012. 16:17

Citat:

Originalno napisao degojs (Napišite 105201)

Uopste nije bilo tako!!!

Pokusao sam da pomognem - cak sam dao coveku i link ka dokumentaciji... a onda sam dao i svoje misljenje - to to ne sme vise ili sta?

degojs

17. 02. 2012. 16:21

^Hteo sam da dodam P.S. Moj komentar se ne odnosi na prvi deo djipkove poruke, ali me mrzelo iskreno..

Stvar je da je postala uobicajena stvar da se na ovom forumu za problem u X, daje resenje u Y, uz komentar da X ionako ne valja za to :) Nema smisla.. Bar da ima neke slicnosti, npr. da je u pitanju MySQL vs T-SQL resenje, pa ajde.

nn.nn

17. 02. 2012. 16:32

Citat:

Originalno napisao degojs (Napišite 105205)

Bar da ima neke slicnosti, npr. da je u pitanju MySQL vs T-SQL resenje, pa ajde.

Zar to nisu sve Turing complete jezici? ;)

djipko

17. 02. 2012. 16:41

Ne slazem se ni sa time - covek je pitao kako da isparsira tekst koristeci C++ i regularne izraze.

Ako u toj situaciji stvarno mislis da "C++ ti mozda nije najbolji za to" nije koristan savet da se doda na kraju - onda se povlacim.

degojs

17. 02. 2012. 17:43

Vidi, tupimo.. ali ako neko uci C++, ne znam kako ce da ga nauci ako ne radi u istom?

A i inace, ako ces za svaki problem da resenje trazis u drugom jeziku gde je to (MOZDA) lakse, ne znam sta ces ikada da naucis.

jablan

17. 02. 2012. 18:04

Zaboravio si da podvučeš i bolduješ, da ne čuje zlo:

Citat:

Originalno napisao degojs (Napišite 105210)

A i inace, ako ces za svaki problem da resenje trazis u drugom jeziku gde je to (MOZDA) lakse, ne znam sta ces ikada da naucis.

degojs

17. 02. 2012. 18:21

Ti si zaboravio da napises resenje u Rubiju.

Ajd sta cekas.. ima smisla, covek bi da uci C++.

djipko

17. 02. 2012. 18:41

^ Kako je zaboravio - pa vidi koliko je resenje na prethodnoj strani (hint: toliko je malo da ga nisi ni video) ;)

degojs

17. 02. 2012. 18:56

Heheh :) Ma video sam, al pojma nemam sta je, samo mi je izgledalo da nije C++, sto je meni bilo dovoljno.

Imate jos neko resenje da nije C++?

srdjan

17. 02. 2012. 21:22

Da sam 15 godina mladji, dao bi ti iz glave u LISP-u ;)

morando

17. 02. 2012. 21:37

Hteo sam da probam neki drugi pattern ali ne mogu da nađem, odnosno ne znam kako bih tražio tu "stvar", valjda se zove "opseg code pointa" za našu ćirlicu (utf16 pošto sam na windowsu), znači išlo bi nešto ovako:

Kôd:

\b[\x???-\x???]+\b

Valjda ste razumeli šta mi treba? Da vidim da li će da radi.

EDIT: Uuuups. Izvinjavam se. Izgleda da mi treba \u verzija:

Citat:

A hexadecimal escape sequence of the form "\xhh". Matches a character in the target sequence that is represented by the two hexadecimal digits hh.

A unicode escape sequence of the form "\uhhhh". Matches a character in the target sequence that is represented by the four hexadecimal digits hhhh.

Izvor http://msdn.microsoft.com/en-us/library/bb982727.aspx

morando

17. 02. 2012. 22:50

Sad sam probao ovo:

Kôd:

std::wregex pattern(L"\\b[\\u0401-\\u0449]+\\b");

prema char-map:

Ako neko može da mi potvrdi da li je to to što sam tražio?
Ali i ovo ne matchuje ništa, da li je korektna sintaksa?

webarto

17. 02. 2012. 23:22

Ja ne bih rekao, ne matchuje sve...

U stvari nešto zeza...

Ali ne znam da li je taj u C++ "Perl Compatible Regular Expressions" tako da... :)

jablan

17. 02. 2012. 23:39

^ Ruski alfabet nema J i Ć, zato zeza. ;)

BTW: http://rubular.com/r/X5ZXPMBqQl

Ali to je Ruby endžin ispod, ko zna da li to radi u Win32 ili šta već tera taj C++.

morando

17. 02. 2012. 23:47

Koliko sam razumeo, po defaultu C++ standard regex (iplementacija uzeta od Boost-a) koristi ECMAScript "gramatiku", to je valjda nesto slicno Perl-u?

Citat:

C++ TR1 regular expression flavor

The C++ TR1 regular expressions can follow the syntax of several regular expression environments depending on the optional flags sent to the regular expression class constructor. The six options given in the Microsoft implementation are as follows.

basic
extended
ECMAScript
awk
grep
egrep

The default for the Microsoft implementation is ECMAScript, matching the regular expression syntax of the ECMAScript (JavaScript) language, which is very similar to that in Perl 5.

The choice of flavors is extensible and implementation-specific. For example, the Boost implementation adds perl as an option, which presumably follows Perl 5 syntax more closely than the ECMASCript option does.

For someone familiar with regular expressions the difficulty in using regular expressions in C++ TR1 is not in the syntax of regular expressions themselves, but rather in using regular expressions to do work.

Izvor http://www.johndcook.com/cpp_regex.html

E sad ovi "flagovi" mogu da se menjaju ako postavim neki drugi kao paramatar u konstruktoru regex-a, samo ne znam da li ce biti neke razlike posto sam negde procitao da ovaj ECMAScript sadrzi sve sto i ostali.

webarto

17. 02. 2012. 23:48

я vidiš na to nisam obraćao pažnju :)

morando

18. 02. 2012. 20:06

Ljudi treba mi zamena za word boundari \b, nešto me ovo zeza kad se ukombinuje sa Unicode karakterima. Gledao sam nešto na wikipediji, ali ne razuem njihov "kod":

Kôd:

[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]

Kaže za metakarakter '?' matchuje 0 ili vise puta krakter pre ovoga, ali u ovom kodu je '?' pre svih karaktera??? Šta u ovom kontekstu onda radi '?'?
Ako može neko da malo pojasni o čemu se radi? Prevod?

Hvala.

Br@nkoR

18. 02. 2012. 21:27

?<= positive lookbehind
?= positive lookahead

http://www.regular-expressions.info/lookaround.html

Pokušaj npr. [\u0400-\u04FF]+
http://www.regular-expressions.info/unicode.html

Ili npr. sve osim razmaka, tačke, zareza... [^\s.,]+

morando

18. 02. 2012. 22:00

Da li sam dobro skapirao?

Kôd:

kod: [(?<=\\W)(?=\\w)

prevod: ako je pre mene ne-alpfanum.karakter a posle mene alpfanum.karakter = ISTINA

kod: |(?<=\\w)(?=\\W)]

prevod: ili ako je pre mene alpfanum.karakter a posle mene ne-alpfanum.karakter = ISTINA

Samo sto ovo vazi samo za ANSI/ASCII karaktere.

morando

18. 02. 2012. 23:15

Sad sam probao nesto da stavim umesto \b :

Kôd:

([\\u0400-\\u04FF])([^\\u0400-\\u04FF])[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]

moja_rec

[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]

ali mi opet ne matchuje.

Da nisam pogresio sa \1 i \2?
\1 koliko razumem se odnosi na izraz u prvoj zagradi a \2 za izraz u drugoj zagradi? Jel?

Kôd:

\1 =>([\\u0400-\\u04FF])                

\2 =>([^\\u0400-\\u04FF])

Hvala.

Br@nkoR

18. 02. 2012. 23:42

Nisam baš vešt u objašnjavanju, a i ne znam C++ (nešto malo) pa tako nisam siguran, pišem na osnovu onoga što znam iz php, js...

(?<!\w)(?=\w) ili kao u tvom primeru (?<=\\W)(?=\\w) je zamena za \b na početku stringa
(?<=\w)(?!\w) odnosno (?<=\\w)(?=\\W) je zamena za \b na kraju stringa

(?<=\\W)(?=\\w) pronađi "karakter" ispred koga je ne-alfanumerički karakter i iza koga je alfanumerički karakter
(?<=\\w)(?=\\W) pronađi "karakter" ispred koga je alfanumerički karakter i iza koga je ne-alfanumerički karakter

Pa tako umesto \bSUBJECT\b može se napisati (?<=\\W)(?=\\w)SUBJECT(?<=\\w)(?=\\W)

A (?<=\W)(?=\w)|(?<=\w)(?=\W) bi trebalo da pronađe sve "word boundaries" u tekstu.

http://www.regular-expressions.info/wordboundaries.html

A [] pretstavljaju Character Classes: http://www.regular-expressions.info/charclass.html

Pa bi tako:
[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]

Pronađi jedan od karaktera iz grupe u zagradama [], dakle pronađi ( ili ? ili < ili = ili \W ili ...

A za backreference:
http://www.regular-expressions.info/brackets.html
i mislim da ih nije moguće koristiti unutar [] (character Classes)

morando

19. 02. 2012. 00:45

Aha, sad vidim gde sam pogresio. Probao sam sad ovo i radi ovde.
Ali u VS-u moram da dodam plus po jedan '\' da mi ne bi reisformatirao pattern jer M$ kompajler takodje koristi taj karakter za njegove "metakaraktere/escape seq." (kako da ih nazovem vise), pa mi regex izbacuje exception:

Citat:

regex_error(error_syntax)

pri pokretanju za

Kôd:

(?<![\\u0400-\\u04FF])MOJA_REC_KOJU_TESTIRAM(?![\\u0400-\\u04FF]);

EDIT:
sa jednim '\':

sa dva '\':

Za oba je syntax error exception.

morando

19. 02. 2012. 01:23

Sad sam probao nesto, izgleda da std::regex ne podrzava "lookaround". :1083:

Kôd:

#include <iostream>

#include <string>

#include <regex>



int main()

{

        try

        {

                std::string str = "Pera kojot, super genije.";

                std::regex pattern("(?<![a-zA-Z])[a-zA-Z]+(?![a-zA-Z])");





                const std::sregex_token_iterator end;

                std::sregex_token_iterator ti(str.begin(), str.end(), pattern);

                for(; ti != end; ++ti)

                {

                        std::cout << (*ti) << std::endl;

                }

        }

        catch(const std::exception& e)

        {

                std::cout << e.what() << std::endl;

        }



    std::cin.ignore();

    return 0;

}

out:

Citat:

regex_error(error_syntax)

Ne mogu da verujem! Koji su ga djavo stavljali u STL?

jablan

19. 02. 2012. 08:43

A zašto uopšte gledaš karaktere oko reči? Kapiram da tebe interesuju samo reči, ne i ono oko njih?

webarto

19. 02. 2012. 11:25

^ I ja se pitam... @morando, koja je razlika naspram ovoga... http://rubular.com/r/GviWLmoGz3

morando

19. 02. 2012. 11:48

To sam uradio u prvom prolazu:

Kôd:

std::set<std::wstring> s_words;

for(std::size_t i = 0; i < v_utf16_lines.size(); ++i)

{

        std::wregex pattern(L"[\\u0400-\\u04FF]+");

        const std::wsregex_token_iterator end;

        std::wsregex_token_iterator ti(v_utf16_lines[i].begin(), v_utf16_lines[i].end(), pattern);

        for(; ti != end; ++ti)

        {

                s_words.insert(*ti);

        }

}

sad "s_words" sadrzi sve "unikatne" reci.
I onda drugi prolaz koristim taj set reci da proverim koliko puta se ponavlja svaka ta rec:

Kôd:

std::set<std::wstring>::iterator send = s_words.end();

std::set<std::wstring>::iterator sit = s_words.begin();

for(; sit != send; ++sit)

{

        std::size_t w_freq = 0;

        std::wstring pttr = L"(?<=[^\u0400-\u04FF])(?=[\u0400-\u04FF])"  + (*sit) + L"(?<=[\u0400-\u04FF])(?=[^\u0400-\u04FF])";

        std::wregex pattern(pttr);

        .....

}

ali ne podrzava lookaround.

Mislim, mogu to sve u prvom prolazu, ali dajem sebi za primer ako trazim bas neku specificnu rec, recimo:

Kôd:

nadji rec:  и

u: Свекрва се не сећа да је и она некад снаха била.

ovde ima 2 и аli mi treba samo kao rec, znaci treba da matchuje 1.

webarto

19. 02. 2012. 12:50

MS and Unicode, still a better love story than Twilight :D

Ja bih u 3 navrata to uradio... početak, kraj, i sredina.

^(и)[^\u0400-\u04FF]
[^\u0400-\u04FF](и)$
[^\u0400-\u04FF](и)[^\u0400-\u04FF]

Ostaje ti i preg_split (tako se u PHP zove), i onda da prebrojiš koliko ima takvih riječi u arrayu :)

Vreme je GMT +2. Trenutno vreme je 09:12.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.