DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Programiranje
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: VIP izazov 3

Odgovori
 
Alati teme Način prikaza
Staro 16. 02. 2012.   #1
morando
nedovoljno naspavan
Na probnom radu
 
Datum učlanjenja: 25.03.2011
Poruke: 21
Hvala: 7
1 "Hvala" u 1 poruci
morando is on a distinguished road
Default [C++] Regular expression i ćirlična slova

Problem je sledeći:
Hoću da "uzmem" sve "unikatne" reči iz teksta i izračunam koliko puta se pojavljuju u istom.
Iskopirao sam neke naše poslovice (ćiriličnim slovima pisane) i sačuvao sa notepad-om kao UTF8 fajl. Onda sam priključio UTF8 biblioteku (od autora "Dragi Tata" koji je član ovog foruma, ne mogu sad da nađem pravo ime i prezime ) da izkonvertujem taj text iz UT8 u UTF16 (std::wstring) i pokrenem regex na to:
(win7, VS 2010 C++)
Kôd:
#include <iostream>
#include <fstream>
#include <string>
#include <sstream>
#include <vector>
#include <set>
#include <map>
#include <regex>
#include <limits>
#include <locale>
#include "utf8.h"

int main()
{
	try
	{
		std::ifstream in_file("file.txt");

		std::vector<std::wstring> v_utf16_lines;
		std::string line;
		while(std::getline(in_file, line))
		{
			std::wstring utf16line;
			utf8::utf8to16(line.begin(), line.end(), std::back_inserter(utf16line));
			v_utf16_lines.push_back(utf16line);
		}

		in_file.close();

		//std::wregex::flag_type reg_flags = std::regex_constants::ECMAScript;

		std::set<std::wstring> s_words;
		for(std::size_t i = 0; i < v_utf16_lines.size(); ++i)
		{
			std::wregex pattern(L"\\b[\\p{L}]+\\b");
			const std::wsregex_token_iterator end;
			std::wsregex_token_iterator ti(v_utf16_lines[i].begin(), v_utf16_lines[i].end(), pattern);
			for(; ti != end; ++ti)
			{
				s_words.insert(*ti);
			}
		}

		std::string out_str;

		std::set<std::wstring>::iterator send = s_words.end();
		std::set<std::wstring>::iterator sit = s_words.begin();
		for(; sit != send; ++sit)
		{
			std::size_t w_freq = 0;
			std::wregex pattern(L"\\b" + (*sit) + L"\\b");

			for(std::size_t i = 0; i < v_utf16_lines.size(); ++i)
			{
				const std::wsregex_token_iterator end;
				std::wsregex_token_iterator ti(v_utf16_lines[i].begin(), v_utf16_lines[i].end(), pattern);
				for(; ti != end; ++ti)
				{ ++w_freq; }
			}

			std::string utf8_line;
			utf8::utf16to8((*sit).begin(), (*sit).end(), std::back_inserter(utf8_line));

			out_str += "Word \"";
			out_str += utf8_line;
			out_str += "\", freq = ";
			std::stringstream conv;
			conv << w_freq;
			std::string sfreq;
			conv >> sfreq;
			out_str += sfreq;
			out_str += '\n';
		}

		std::ofstream out_file("result.txt", std::ios::binary);
		out_file.write(out_str.c_str(), out_str.size());
		out_file.close();

	}
	catch(const std::exception& e)
	{
		std::cout << e.what() << std::endl;
	}

    std::cout << "Press enter to exit..." << std::endl;
    std::cin.ignore( std::numeric_limits< std::streamsize >::max(), '\n' );
    return 0;
}
Evo i slike koja pokazuje da je konverzija uspela:


Na boldiranom delu iz koda dobijam regex exception, ali patern bi trebao da bude standardan/regularan, ne razumem WTF?
Kôd:
std::wregex pattern(L"\\b[\\p{L}]+\\b");
Ovo bi trebalo da pokupi sve reči?

Hvala unapred za ideje.

Poslednja izmena od morando : 16. 02. 2012. u 22:36.
morando je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #2
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Evo napamet (ne bi bilo lose da das trejs) - da nije problem sto mu saljes wchar kao regex (ovo L ispred literala).

Druga stvar koja moze biti je da koristis klase unicode karaktera (\p{L}) - koje kolko vidim u dokumentaciji boost regex ne podrzava. Tacnije dosta stvari ne podrzava vezane za unicode. Pogledaj http://www.boost.org/doc/libs/1_38_0...x/unicode.html

Ovo sve napamet pisem - nisam programirao u C++ godinama, a i nikad mi nije palo da ga koristim za regex.

Mene jako interesuje zasto koristis C++ za nesto sto je jedna linija u perl/ruby/python/bash-u
djipko je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #3
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Offtopic:

python oneliner koji ce uraditi sta ti treba (znam da ti ne resava problem , ali ako neko hoce golfa da se igra):

Kôd:
l = "".join(map(lambda c: " " if c in "?.!-,\"\'\/\\()" else c, open("file.txt").read())).split(); d= set((w, len(filter(lambda ww: ww==w, l))) for w in l); print d
djipko je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #4
morando
nedovoljno naspavan
Na probnom radu
 
Datum učlanjenja: 25.03.2011
Poruke: 21
Hvala: 7
1 "Hvala" u 1 poruci
morando is on a distinguished road
Default

Citat:
Evo napamet (ne bi bilo lose da das trejs) - da nije problem sto mu saljes wchar kao regex (ovo L ispred literala).
Imaju dve "verzije" regexa, regex (single byte character set) i wregex (wide/multibyte) pa moram da stavim L ispred litelarne konstante jer je takava sintaksa, a i ne mogu da tražim unicode karaktere sa ovom prvom verzijom?
Nema konkretnih detalja zašto baca exception, predpostavljam zato što ne podržava \p{L} metakaraktere, što si i ti rekao.
Ovako kako stoje stvari wregex je beskoristan, nadam se samo da će u nekoj sledećoj verziji VS-a srediti njegovu funkcionalnost.

Citat:
Mene jako interesuje zasto koristis C++ za nesto sto je jedna linija u perl/ruby/python/bash-u.
E pa nije mi cilj uraditi zadatak, već učiti C++ jezik, klase i funkcije njegove standardne biblioteke.

Jedino da probam ovu ICU biblioteku što predlažu, ako uspem da se snađem da inkorporiram.

Hvala u svakom slučaju.
morando je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #5
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Igranje sa tekstom jednostavno nije nesto za sta se C++ koristi i to ti nije bas dobra tema za vezbanje C++ a.

C++ je interesantan ako hoces da vezbas osnove algoritama - npr da napises neki sort ili zanimljivu strukturu podataka. Zanimljiv je i za mrezno programiranje naprimer.
djipko je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #6
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Citat:
Originalno napisao djipko Pogledajte poruku
Offtopic:
python oneliner koji ce uraditi sta ti treba (znam da ti ne resava problem , ali ako neko hoce golfa da se igra):
Evo ja ću
Kôd:
p IO.read('file.txt').scan(/\p{L}+/u).group_by{|e|e}.map{|k,v|[k,v.count]}
Citat:
Originalno napisao djipko Pogledajte poruku
Igranje sa tekstom jednostavno nije nesto za sta se C++ koristi i to ti nije bas dobra tema za vezbanje C++ a.
Pa dobro, može i za tekst, ako ti treba baš velika brzina ili precizan memory menadžment. A to ima svoju cenu.
__________________
blog
jablan je offline   Odgovorite uz citat
"Hvala" jablan za poruku:
Staro 17. 02. 2012.   #7
degojs
I'm a PC too.
Wrote a book
 
Avatar degojs
 
Datum učlanjenja: 06.06.2005
Lokacija: Kanada
Poruke: 1.354
Hvala: 82
130 "Hvala" u 89 poruka
degojs će postati "faca" uskorodegojs će postati "faca" uskoro
Default

Coveku jasno treba pomoc u C++..

Ako ne umete da napisete resenje u C++ za ovaj problem sto covek ima, nekako se samo namece da bas i ne poznajete isti, pa onda nekako i ne stoji bas da treba da komentarisete C++ tipa za ovo je dobar, za ovo nije.

Jbte, dokle vise moramo da trpimo ovakve gluposti ovde: covek pita za X i lepo kaze treba mu za X, ali evo ti bato resenje za Y, a X ti nije dobar.. hehe.
__________________
Commercial-Free !!!
degojs je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #8
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Citat:
Originalno napisao degojs Pogledajte poruku
Coveku jasno treba pomoc u C++..

Ako ne umete da napisete resenje u C++ za ovaj problem sto covek ima, nekako se samo namece da bas i ne poznajete isti, pa onda nekako i ne stoji bas da treba da komentarisete C++ tipa za ovo je dobar, za ovo nije.

Jbte, dokle vise moramo da trpimo ovakve gluposti ovde: covek pita za X i lepo kaze treba mu za X, ali evo ti bato resenje za Y, a X ti nije dobar.. hehe.
Uopste nije bilo tako!!!

Pokusao sam da pomognem - cak sam dao coveku i link ka dokumentaciji... a onda sam dao i svoje misljenje - to to ne sme vise ili sta?
djipko je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #9
degojs
I'm a PC too.
Wrote a book
 
Avatar degojs
 
Datum učlanjenja: 06.06.2005
Lokacija: Kanada
Poruke: 1.354
Hvala: 82
130 "Hvala" u 89 poruka
degojs će postati "faca" uskorodegojs će postati "faca" uskoro
Default

^Hteo sam da dodam P.S. Moj komentar se ne odnosi na prvi deo djipkove poruke, ali me mrzelo iskreno..

Stvar je da je postala uobicajena stvar da se na ovom forumu za problem u X, daje resenje u Y, uz komentar da X ionako ne valja za to Nema smisla.. Bar da ima neke slicnosti, npr. da je u pitanju MySQL vs T-SQL resenje, pa ajde.
__________________
Commercial-Free !!!

Poslednja izmena od degojs : 17. 02. 2012. u 17:24.
degojs je offline   Odgovorite uz citat
Staro 17. 02. 2012.   #10
nn.nn
nobody
Expert
 
Avatar nn.nn
 
Datum učlanjenja: 19.04.2007
Poruke: 537
Hvala: 14
705 "Hvala" u 106 poruka
nn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoro
Default

Citat:
Originalno napisao degojs Pogledajte poruku
Bar da ima neke slicnosti, npr. da je u pitanju MySQL vs T-SQL resenje, pa ajde.
Zar to nisu sve Turing complete jezici?
nn.nn je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 23:03.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.