DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   Programiranje (http://www.devprotalk.com/forumdisplay.php?f=23)
-   -   [C++] Regular expression i ćirlična slova (http://www.devprotalk.com/showthread.php?t=10800)

jablan 17. 02. 2012. 23:39

^ Ruski alfabet nema J i Ć, zato zeza. ;)

BTW: http://rubular.com/r/X5ZXPMBqQl

Ali to je Ruby endžin ispod, ko zna da li to radi u Win32 ili šta već tera taj C++.

morando 17. 02. 2012. 23:47

Koliko sam razumeo, po defaultu C++ standard regex (iplementacija uzeta od Boost-a) koristi ECMAScript "gramatiku", to je valjda nesto slicno Perl-u?

Citat:

C++ TR1 regular expression flavor

The C++ TR1 regular expressions can follow the syntax of several regular expression environments depending on the optional flags sent to the regular expression class constructor. The six options given in the Microsoft implementation are as follows.

basic
extended
ECMAScript
awk
grep
egrep

The default for the Microsoft implementation is ECMAScript, matching the regular expression syntax of the ECMAScript (JavaScript) language, which is very similar to that in Perl 5.

The choice of flavors is extensible and implementation-specific. For example, the Boost implementation adds perl as an option, which presumably follows Perl 5 syntax more closely than the ECMASCript option does.

For someone familiar with regular expressions the difficulty in using regular expressions in C++ TR1 is not in the syntax of regular expressions themselves, but rather in using regular expressions to do work.
Izvor http://www.johndcook.com/cpp_regex.html

E sad ovi "flagovi" mogu da se menjaju ako postavim neki drugi kao paramatar u konstruktoru regex-a, samo ne znam da li ce biti neke razlike posto sam negde procitao da ovaj ECMAScript sadrzi sve sto i ostali.

webarto 17. 02. 2012. 23:48

я vidiš na to nisam obraćao pažnju :)

morando 18. 02. 2012. 20:06

Ljudi treba mi zamena za word boundari \b, nešto me ovo zeza kad se ukombinuje sa Unicode karakterima. Gledao sam nešto na wikipediji, ali ne razuem njihov "kod":

Kôd:

[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]
Kaže za metakarakter '?' matchuje 0 ili vise puta krakter pre ovoga, ali u ovom kodu je '?' pre svih karaktera??? Šta u ovom kontekstu onda radi '?'?
Ako može neko da malo pojasni o čemu se radi? Prevod?

Hvala.

Br@nkoR 18. 02. 2012. 21:27

?<= positive lookbehind
?= positive lookahead

http://www.regular-expressions.info/lookaround.html

Pokušaj npr. [\u0400-\u04FF]+
http://www.regular-expressions.info/unicode.html

Ili npr. sve osim razmaka, tačke, zareza... [^\s.,]+

morando 18. 02. 2012. 22:00

Da li sam dobro skapirao?

Kôd:

kod: [(?<=\\W)(?=\\w)
prevod: ako je pre mene ne-alpfanum.karakter a posle mene alpfanum.karakter = ISTINA
kod: |(?<=\\w)(?=\\W)]
prevod: ili ako je pre mene alpfanum.karakter a posle mene ne-alpfanum.karakter = ISTINA

Samo sto ovo vazi samo za ANSI/ASCII karaktere.

morando 18. 02. 2012. 23:15

Sad sam probao nesto da stavim umesto \b :

Kôd:

([\\u0400-\\u04FF])([^\\u0400-\\u04FF])[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]
moja_rec
[(?<=\\2)(?=\\1)|(?<=\\1)(?=\\2)]

ali mi opet ne matchuje.

Da nisam pogresio sa \1 i \2?
\1 koliko razumem se odnosi na izraz u prvoj zagradi a \2 za izraz u drugoj zagradi? Jel?

Kôd:

\1 =>([\\u0400-\\u04FF])               
\2 =>([^\\u0400-\\u04FF])

Hvala.

Br@nkoR 18. 02. 2012. 23:42

Nisam baš vešt u objašnjavanju, a i ne znam C++ (nešto malo) pa tako nisam siguran, pišem na osnovu onoga što znam iz php, js...

(?<!\w)(?=\w) ili kao u tvom primeru (?<=\\W)(?=\\w) je zamena za \b na početku stringa
(?<=\w)(?!\w) odnosno (?<=\\w)(?=\\W) je zamena za \b na kraju stringa

(?<=\\W)(?=\\w) pronađi "karakter" ispred koga je ne-alfanumerički karakter i iza koga je alfanumerički karakter
(?<=\\w)(?=\\W) pronađi "karakter" ispred koga je alfanumerički karakter i iza koga je ne-alfanumerički karakter

Pa tako umesto \bSUBJECT\b može se napisati (?<=\\W)(?=\\w)SUBJECT(?<=\\w)(?=\\W)

A (?<=\W)(?=\w)|(?<=\w)(?=\W) bi trebalo da pronađe sve "word boundaries" u tekstu.

http://www.regular-expressions.info/wordboundaries.html

A [] pretstavljaju Character Classes: http://www.regular-expressions.info/charclass.html

Pa bi tako:
[(?<=\\W)(?=\\w)|(?<=\\w)(?=\\W)]

Pronađi jedan od karaktera iz grupe u zagradama [], dakle pronađi ( ili ? ili < ili = ili \W ili ...

A za backreference:
http://www.regular-expressions.info/brackets.html
i mislim da ih nije moguće koristiti unutar [] (character Classes)

morando 19. 02. 2012. 00:45

Aha, sad vidim gde sam pogresio. Probao sam sad ovo i radi ovde.
Ali u VS-u moram da dodam plus po jedan '\' da mi ne bi reisformatirao pattern jer M$ kompajler takodje koristi taj karakter za njegove "metakaraktere/escape seq." (kako da ih nazovem vise), pa mi regex izbacuje exception:
Citat:

regex_error(error_syntax)
pri pokretanju za
Kôd:

(?<![\\u0400-\\u04FF])MOJA_REC_KOJU_TESTIRAM(?![\\u0400-\\u04FF]);
EDIT:
sa jednim '\':


sa dva '\':


Za oba je syntax error exception.

morando 19. 02. 2012. 01:23

Sad sam probao nesto, izgleda da std::regex ne podrzava "lookaround". :1083:
Kôd:

#include <iostream>
#include <string>
#include <regex>

int main()
{
        try
        {
                std::string str = "Pera kojot, super genije.";
                std::regex pattern("(?<![a-zA-Z])[a-zA-Z]+(?![a-zA-Z])");


                const std::sregex_token_iterator end;
                std::sregex_token_iterator ti(str.begin(), str.end(), pattern);
                for(; ti != end; ++ti)
                {
                        std::cout << (*ti) << std::endl;
                }
        }
        catch(const std::exception& e)
        {
                std::cout << e.what() << std::endl;
        }

    std::cin.ignore();
    return 0;
}

out:
Citat:

regex_error(error_syntax)
Ne mogu da verujem! Koji su ga djavo stavljali u STL?


Vreme je GMT +2. Trenutno vreme je 16:50.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.