[C++] Regular expression i ćirlična slova - Strana 3

jablan · 17. 02. 2012.

^ Ruski alfabet nema J i Ć, zato zeza.

BTW: http://rubular.com/r/X5ZXPMBqQl

Ali to je Ruby endžin ispod, ko zna da li to radi u Win32 ili šta već tera taj C++.

morando · 17. 02. 2012.

Koliko sam razumeo, po defaultu C++ standard regex (iplementacija uzeta od Boost-a) koristi ECMAScript "gramatiku", to je valjda nesto slicno Perl-u?

Citat:

C++ TR1 regular expression flavor

The C++ TR1 regular expressions can follow the syntax of several regular expression environments depending on the optional flags sent to the regular expression class constructor. The six options given in the Microsoft implementation are as follows.

basic
extended
ECMAScript
awk
grep
egrep

The default for the Microsoft implementation is ECMAScript, matching the regular expression syntax of the ECMAScript (JavaScript) language, which is very similar to that in Perl 5.

The choice of flavors is extensible and implementation-specific. For example, the Boost implementation adds perl as an option, which presumably follows Perl 5 syntax more closely than the ECMASCript option does.

For someone familiar with regular expressions the difficulty in using regular expressions in C++ TR1 is not in the syntax of regular expressions themselves, but rather in using regular expressions to do work.

Izvor http://www.johndcook.com/cpp_regex.html

E sad ovi "flagovi" mogu da se menjaju ako postavim neki drugi kao paramatar u konstruktoru regex-a, samo ne znam da li ce biti neke razlike posto sam negde procitao da ovaj ECMAScript sadrzi sve sto i ostali.

webarto · 17. 02. 2012.

я vidiš na to nisam obraćao pažnju

morando · 18. 02. 2012.

Ljudi treba mi zamena za word boundari \b, nešto me ovo zeza kad se ukombinuje sa Unicode karakterima. Gledao sam nešto na wikipediji, ali ne razuem njihov "kod":

Kôd:

[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]

Kaže za metakarakter '?' matchuje 0 ili vise puta krakter pre ovoga, ali u ovom kodu je '?' pre svih karaktera??? Šta u ovom kontekstu onda radi '?'?
Ako može neko da malo pojasni o čemu se radi? Prevod?

Hvala.

Br@nkoR · 18. 02. 2012.

?<= positive lookbehind
?= positive lookahead

http://www.regular-expressions.info/lookaround.html

Pokušaj npr. [\u0400-\u04FF]+
http://www.regular-expressions.info/unicode.html

Ili npr. sve osim razmaka, tačke, zareza... [^\s.,]+

morando · 18. 02. 2012.

Da li sam dobro skapirao?

Kôd:

kod: [(?<=\\W)(?=\\w)
prevod: ako je pre mene ne-alpfanum.karakter a posle mene alpfanum.karakter = ISTINA
kod: |(?<=\\w)(?=\\W)]
prevod: ili ako je pre mene alpfanum.karakter a posle mene ne-alpfanum.karakter = ISTINA

Samo sto ovo vazi samo za ANSI/ASCII karaktere.

morando · 18. 02. 2012.

Sad sam probao nesto da stavim umesto \b :

Kôd:

([\\u0400-\\u04FF])([^\\u0400-\\u04FF])[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]
moja_rec
[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]

ali mi opet ne matchuje.

Da nisam pogresio sa \1 i \2?
\1 koliko razumem se odnosi na izraz u prvoj zagradi a \2 za izraz u drugoj zagradi? Jel?

Kôd:

\1 =>([\\u0400-\\u04FF])                
\2 =>([^\\u0400-\\u04FF])

Hvala.

Br@nkoR · 18. 02. 2012.

Nisam baš vešt u objašnjavanju, a i ne znam C++ (nešto malo) pa tako nisam siguran, pišem na osnovu onoga što znam iz php, js...

(?<!\w)(?=\w) ili kao u tvom primeru (?<=\\W)(?=\\w) je zamena za \b na početku stringa
(?<=\w)(?!\w) odnosno (?<=\\w)(?=\\W) je zamena za \b na kraju stringa

(?<=\\W)(?=\\w) pronađi "karakter" ispred koga je ne-alfanumerički karakter i iza koga je alfanumerički karakter
(?<=\\w)(?=\\W) pronađi "karakter" ispred koga je alfanumerički karakter i iza koga je ne-alfanumerički karakter

Pa tako umesto \bSUBJECT\b može se napisati (?<=\\W)(?=\\w)SUBJECT(?<=\\w)(?=\\W)

A (?<=\W)(?=\w)|(?<=\w)(?=\W) bi trebalo da pronađe sve "word boundaries" u tekstu.

http://www.regular-expressions.info/wordboundaries.html

A [] pretstavljaju Character Classes: http://www.regular-expressions.info/charclass.html

Pa bi tako:
[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]

Pronađi jedan od karaktera iz grupe u zagradama [], dakle pronađi ( ili ? ili < ili = ili \W ili ...

A za backreference:
http://www.regular-expressions.info/brackets.html
i mislim da ih nije moguće koristiti unutar [] (character Classes)

morando · 19. 02. 2012.

Aha, sad vidim gde sam pogresio. Probao sam sad ovo i radi ovde.
Ali u VS-u moram da dodam plus po jedan '\' da mi ne bi reisformatirao pattern jer M$ kompajler takodje koristi taj karakter za njegove "metakaraktere/escape seq." (kako da ih nazovem vise), pa mi regex izbacuje exception:

Citat:

regex_error(error_syntax)

pri pokretanju za

Kôd:

(?<![\\u0400-\\u04FF])MOJA_REC_KOJU_TESTIRAM(?![\\u0400-\\u04FF]);

EDIT:
sa jednim '\':

sa dva '\':

Za oba je syntax error exception.

morando · 19. 02. 2012.

Sad sam probao nesto, izgleda da std::regex ne podrzava "lookaround".

Kôd:

#include <iostream>
#include <string>
#include <regex>

int main()
{
	try
	{
		std::string str = "Pera kojot, super genije.";
		std::regex pattern("(?<![a-zA-Z])[a-zA-Z]+(?![a-zA-Z])");


		const std::sregex_token_iterator end;
		std::sregex_token_iterator ti(str.begin(), str.end(), pattern);
		for(; ti != end; ++ti)
		{
			std::cout << (*ti) << std::endl;
		}
	}
	catch(const std::exception& e)
	{
		std::cout << e.what() << std::endl;
	}

    std::cin.ignore();
    return 0;
}

out:

Citat:

regex_error(error_syntax)

Ne mogu da verujem! Koji su ga djavo stavljali u STL?

17. 02. 2012.	#21
jablan VD IT Direktora Invented the damn thing Datum učlanjenja: 08.06.2005 Lokacija: Beograd Poruke: 2.118 Hvala: 503 1.307 "Hvala" u 282 poruka	^ Ruski alfabet nema J i Ć, zato zeza. BTW: http://rubular.com/r/X5ZXPMBqQl Ali to je Ruby endžin ispod, ko zna da li to radi u Win32 ili šta već tera taj C++. __________________ blog Poslednja izmena od jablan : 17. 02. 2012. u 23:43.

17. 02. 2012.	#23
webarto expert Grand Master Datum učlanjenja: 11.04.2010 Poruke: 998 Hvala: 141 959 "Hvala" u 153 poruka	я vidiš na to nisam obraćao pažnju __________________ Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting

18. 02. 2012.	#24
morando nedovoljno naspavan Na probnom radu Datum učlanjenja: 25.03.2011 Poruke: 21 Hvala: 7 1 "Hvala" u 1 poruci	Ljudi treba mi zamena za word boundari \b, nešto me ovo zeza kad se ukombinuje sa Unicode karakterima. Gledao sam nešto na wikipediji, ali ne razuem njihov "kod": Kôd: [(?<=\\W)(?=\\w)\|(?<=\\w)(?=\\W)] Kaže za metakarakter '?' matchuje 0 ili vise puta krakter pre ovoga, ali u ovom kodu je '?' pre svih karaktera??? Šta u ovom kontekstu onda radi '?'? Ako može neko da malo pojasni o čemu se radi? Prevod? Hvala.

18. 02. 2012.	#25
Br@nkoR banned Professional Datum učlanjenja: 04.06.2005 Poruke: 371 Hvala: 0 738 "Hvala" u 83 poruka	?<= positive lookbehind ?= positive lookahead http://www.regular-expressions.info/lookaround.html Pokušaj npr. [\u0400-\u04FF]+ http://www.regular-expressions.info/unicode.html Ili npr. sve osim razmaka, tačke, zareza... [^\s.,]+ __________________ Don't look at me; I'm lost too. “If you can't dazzle them with brilliance, baffle them with bulst.” Poslednja izmena od Br@nkoR : 18. 02. 2012. u 21:56.*

18. 02. 2012.	#26
morando nedovoljno naspavan Na probnom radu Datum učlanjenja: 25.03.2011 Poruke: 21 Hvala: 7 1 "Hvala" u 1 poruci	Da li sam dobro skapirao? Kôd: kod: [(?<=\\W)(?=\\w) prevod: ako je pre mene ne-alpfanum.karakter a posle mene alpfanum.karakter = ISTINA kod: \|(?<=\\w)(?=\\W)] prevod: ili ako je pre mene alpfanum.karakter a posle mene ne-alpfanum.karakter = ISTINA Samo sto ovo vazi samo za ANSI/ASCII karaktere. Poslednja izmena od morando : 18. 02. 2012. u 22:02.

Alati teme
Pogledajte verziju za štampanje Pošaljite email-om ovu stranu
Način prikaza
Linearni prikaz Prebacite u hibridni prikaz Prebacite u prikaz po temama