DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > PHP
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

PHP PHP aplikacije, Smarty, PEAR

Odgovori
 
Alati teme Način prikaza
Staro 17. 08. 2007.   #1
Pedja
Predrag Supurović
Grand Master
 
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
Pedja is on a distinguished roadPedja is on a distinguished roadPedja is on a distinguished road
Default Parsiranje po lang atributu

Zaglavio sam se oko ovoga i ne umem da se iskobeljam. Odavno sam napravio Universal Language Tool (http://ult.datavoyage.com/) koji omogucava da se dosta jednostavno ugradi visejezicna podrska na sajt.

Radi to dosta fino ividim da ima ljudi koji korsite biblioteku.

Naime, bibloteka sada jednostavno parsira ceo HTML kod i zamenjuje predefinisane makroe ili vec radi obradu kakvu treba dabi taj dokument "prevela" na trazeni jezik.

Sad sam namerio da je malo unapredim. Hteo bih da iskorsiti lang atribut da izdvojim delove dokumenta koji su na razlicitim jezicima i da te delove tretiram odvojeno.

Primer: biblioteka lako prevodi cirilicni dokument u latinicni, ali se javljaju situacije kada je potrebno da se neki delovi cirilicnog dokumenta zadrze u cirilici a da seostatak prevede na latinicu.

Na primer, dokument koji sadrzi:

<div>Ово је текст написан ћирилицом: <span lang="sr">Дошла маца на вратанца</span></div>

...bi u latinicnoj varijati trebalo a izgleda ovako:

<div>Ovo je tekst napisan ćirilicom: <span lang="sr">Дошла маца на вратанца</span></div>

Nemam pojma kako ovo da isparsiram, s obzirom da:

- lang atribut može da se dodeli mnogim tagovima i

- lang atribut može da se ponavlja po dubini u hijerarhiji HTML objekata

Moja ideja je da nekako iseckam HTML dokument na delove tako da dobijem više delova koji više ne sadrže nijedan lang atribut i da za svaki imam informaciju koji jezik je važeći za taj deo dokumenta. Moje poznavanje regularnih izraza je inferiorno u odnosu na ovakvu potrebu

Da li je neko radio nesto slicno ili bar ima kakvu korisnu sugestiju?
Pedja je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #2
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Ja bih se usuđivao da tako nešto radim jedino ako bih mogao da koristim neki X(HT)ML parser, ali bojim se u tom slučaju ne bih mogao da garantujem da će rezultujući HTML 100% odgovarati početnom.
jablan je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #3
Pedja
Predrag Supurović
Grand Master
 
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
Pedja is on a distinguished roadPedja is on a distinguished roadPedja is on a distinguished road
Default

To sam i ja prvo zakljucio ali sve nekako imam utisak da bi moglo da se resi, a da se ne parsira ceo dokument.

To sto se lang atribut moze naci u mnogo tagova jeste komplikacija, ali je i to ipak sablon.

Ako se radi pojednostavljenja umesto lang atributa uzeo neki neki izmisljeni tag, recimo, <L></L> i ako bi se napravilo parsiranje dokument akoje ce da isecka sve delove izmeju i oko ovih tagova, onda se da napraviti da se umeto tog izmisljenog taga parsira bilo koji tag koji ima lang atribut... princip je isti samo je dodatna kompliakcija sto se mora izvuci koji je tag u pitanju.
Pedja je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #4
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Poenta je što mogu da postoje ugnježdeni L tagovi, tako da ne možeš da znaš kom početnom tagu odgovara neki završni tag, sem ako ozbiljnije ne proparsiraš dokument.
jablan je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #5
Pedja
Predrag Supurović
Grand Master
 
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
Pedja is on a distinguished roadPedja is on a distinguished roadPedja is on a distinguished road
Default

Naravno, ono sto mislim je da uemsto da se parsira ceo HTML, parsiraju se samo L tagovi, jer su oni jedini bitni. To bi trebalo da je ipak debelo pojednostavljenje.
Pedja je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #6
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

pogledaj preg_replace_callback() funkciju, postoji i primer za rekurzivno parsiranje BB coda, time bi mogao da pokrijes manje vise sve, ukoliko je html validan (svi tagovi pravilno ugnjezdeni i zatvoreni)
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 17. 08. 2007.   #7
Pedja
Predrag Supurović
Grand Master
 
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
Pedja is on a distinguished roadPedja is on a distinguished roadPedja is on a distinguished road
Default

preg_replace_callback() je prvo sa cim sam probao ali je logika te funkcije upravo obrnuta onome sto mi treba.
Pedja je offline   Odgovorite uz citat
Staro 18. 08. 2007.   #8
Pedja
Predrag Supurović
Grand Master
 
Datum učlanjenja: 24.01.2006
Lokacija: Užice
Poruke: 791
Hvala: 3
200 "Hvala" u 12 poruka
Pedja is on a distinguished roadPedja is on a distinguished roadPedja is on a distinguished road
Default

Uspeo sam da napravim parsiranje. RAdi sve kako treba ako korsitim <lang></lang> i to mi cak radi posao posto se ti pomocni tagovi nece pojavljivati u izlaznom dokumentu. Medjutim imam problem, taj tag bi u svtvati reba da izgleda ovako:

nekitekst<lang id="en">nekitekst</lang>

U prvoj liniji prilozenog koda je regext koji match-uje <lang id="en"> ali mi ne uspeva da na isti nacin namestim da radi izraz za pretragu koji je definisan u promenljivoj $regex.

Trebalo bi da parsisa sa ovim id="en" (gde en moze biti bilo koja oznaka jezika) i da tu oznaku jezika mogu da procitam kako bih parsiranom segmentu naznacio da je u tom jeziku. U prilozenom kodu, promenljivoj $m_cur_lang treba da se dodeli procitana oznaka jezika.

Al' nece pa nece...

Kôd:
<pre>
<?php

echo preg_match ('#\<lang( (.)*)*\>#', '   <lang id="sr">   ');

$input = "nivo1<lang>nivo2<lang>nivo3<lang>nivo4</lang></lang>nivo2</lang>nivo1<lang>nivo2</lang>nivo1";

echo "input = $input\n";

$parsed = parseLang ($input, 'sr');

print_r ($parsed);

echo "result = " . joinLang ($parsed);

function parseLang ($p_input, $p_def_lang) {
	$regex = '#\<lang\>((?:[^<]|\<(?!/?lang\>)|(?R))+)\</lang\>#';
	
	if (preg_match ($regex, $p_input)) {
		$split = preg_split ($regex, $p_input,2);

		//tekuci nivo, prefiks
		unset ($m_out);
		$m_out['lang'] = $p_def_lang;
		$m_out['value'] = $split[0];
		$out[0] = $m_out;

		// sledeci nivo po dubini
		$m_input = $p_input;
		if (strlen ($split[0]) > 0) $m_input = substr ($m_input, strlen ($split[0]));
		if (strlen ($split[1]) > 0) $m_input = substr ($m_input, 0, - strlen ($split[1]));
		
		$m_cur_lang = $p_def_lang; // ovde treba izvuci vrednost iz lang taga
		
		$m_input = preg_replace ($regex, '$1', $m_input);		

		unset ($m_out);
		$m_out[0] = parseLang ($m_input, $m_cur_lang);
		$out[1] = $m_out;
		
		// tekuci nivo, sufiks
		unset ($m_out);
		$m_out['lang'] = $p_def_lang;
		$m_out = parseLang ($split[1], $m_out['lang']);
		$out[2] = $m_out;
			
		$m_result = $out;
	} else {
		$m_result['lang'] = $p_def_lang;
		$m_result['value'] = $p_input;
	}
	return ($m_result);
}

function joinLang ($p_input) {
	$m_result = '';
	foreach ($p_input as $m_item) {
		if (isset ($m_item['value'])) {
			if (! empty ($m_item['value'])) {
				$m_result .= '<lang' /* id="' . $m_item['lang'] . '"'*/ . '>' . $m_item['value'];
			}
		} else {
			$m_result .= joinLang ($m_item);
		}
	}
	$m_result .= '</lang>';
	return ($m_result);
}

?> 
</pre>
Pedja je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
RSS parsiranje nikolam (X)HTML, JavaScript, DHTML, XML, CSS 4 02. 10. 2009. 22:27
ASP/ASP.NET parsiranje RSS feeda NeonDragon Programiranje 2 23. 09. 2008. 20:52
Problem smarty i poseban lang fajl sa latinicnim prevodom i nasim slovima? MojNalog Sva početnička pitanja 7 06. 06. 2008. 15:13
Dva razlicita lang fajla - merge pcigre PHP 8 09. 04. 2007. 23:31
Ruby-Lang.org crews_adder Linkovi 0 19. 09. 2006. 18:23


Vreme je GMT +2. Trenutno vreme je 14:50.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.