DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   PHP (http://www.devprotalk.com/forumdisplay.php?f=9)
-   -   Parsiranje po lang atributu (http://www.devprotalk.com/showthread.php?t=3379)

Pedja 17. 08. 2007. 16:20

Parsiranje po lang atributu
 
Zaglavio sam se oko ovoga i ne umem da se iskobeljam. Odavno sam napravio Universal Language Tool (http://ult.datavoyage.com/) koji omogucava da se dosta jednostavno ugradi visejezicna podrska na sajt.

Radi to dosta fino ividim da ima ljudi koji korsite biblioteku.

Naime, bibloteka sada jednostavno parsira ceo HTML kod i zamenjuje predefinisane makroe ili vec radi obradu kakvu treba dabi taj dokument "prevela" na trazeni jezik.

Sad sam namerio da je malo unapredim. Hteo bih da iskorsiti lang atribut da izdvojim delove dokumenta koji su na razlicitim jezicima i da te delove tretiram odvojeno.

Primer: biblioteka lako prevodi cirilicni dokument u latinicni, ali se javljaju situacije kada je potrebno da se neki delovi cirilicnog dokumenta zadrze u cirilici a da seostatak prevede na latinicu.

Na primer, dokument koji sadrzi:

<div>Ово је текст написан ћирилицом: <span lang="sr">Дошла маца на вратанца</span></div>

...bi u latinicnoj varijati trebalo a izgleda ovako:

<div>Ovo je tekst napisan ćirilicom: <span lang="sr">Дошла маца на вратанца</span></div>

Nemam pojma kako ovo da isparsiram, s obzirom da:

- lang atribut može da se dodeli mnogim tagovima i

- lang atribut može da se ponavlja po dubini u hijerarhiji HTML objekata

Moja ideja je da nekako iseckam HTML dokument na delove tako da dobijem više delova koji više ne sadrže nijedan lang atribut i da za svaki imam informaciju koji jezik je važeći za taj deo dokumenta. Moje poznavanje regularnih izraza je inferiorno u odnosu na ovakvu potrebu :(

Da li je neko radio nesto slicno ili bar ima kakvu korisnu sugestiju?

jablan 17. 08. 2007. 16:31

Ja bih se usuđivao da tako nešto radim jedino ako bih mogao da koristim neki X(HT)ML parser, ali bojim se u tom slučaju ne bih mogao da garantujem da će rezultujući HTML 100% odgovarati početnom.

Pedja 17. 08. 2007. 17:12

To sam i ja prvo zakljucio ali sve nekako imam utisak da bi moglo da se resi, a da se ne parsira ceo dokument.

To sto se lang atribut moze naci u mnogo tagova jeste komplikacija, ali je i to ipak sablon.

Ako se radi pojednostavljenja umesto lang atributa uzeo neki neki izmisljeni tag, recimo, <L></L> i ako bi se napravilo parsiranje dokument akoje ce da isecka sve delove izmeju i oko ovih tagova, onda se da napraviti da se umeto tog izmisljenog taga parsira bilo koji tag koji ima lang atribut... princip je isti samo je dodatna kompliakcija sto se mora izvuci koji je tag u pitanju.

jablan 17. 08. 2007. 17:24

Poenta je što mogu da postoje ugnježdeni L tagovi, tako da ne možeš da znaš kom početnom tagu odgovara neki završni tag, sem ako ozbiljnije ne proparsiraš dokument.

Pedja 17. 08. 2007. 18:53

Naravno, ono sto mislim je da uemsto da se parsira ceo HTML, parsiraju se samo L tagovi, jer su oni jedini bitni. To bi trebalo da je ipak debelo pojednostavljenje.

ivanhoe 17. 08. 2007. 19:29

pogledaj preg_replace_callback() funkciju, postoji i primer za rekurzivno parsiranje BB coda, time bi mogao da pokrijes manje vise sve, ukoliko je html validan (svi tagovi pravilno ugnjezdeni i zatvoreni)

Pedja 17. 08. 2007. 22:51

preg_replace_callback() je prvo sa cim sam probao ali je logika te funkcije upravo obrnuta onome sto mi treba.

Pedja 18. 08. 2007. 00:52

Uspeo sam da napravim parsiranje. RAdi sve kako treba ako korsitim <lang></lang> i to mi cak radi posao posto se ti pomocni tagovi nece pojavljivati u izlaznom dokumentu. Medjutim imam problem, taj tag bi u svtvati reba da izgleda ovako:

nekitekst<lang id="en">nekitekst</lang>

U prvoj liniji prilozenog koda je regext koji match-uje <lang id="en"> ali mi ne uspeva da na isti nacin namestim da radi izraz za pretragu koji je definisan u promenljivoj $regex.

Trebalo bi da parsisa sa ovim id="en" (gde en moze biti bilo koja oznaka jezika) i da tu oznaku jezika mogu da procitam kako bih parsiranom segmentu naznacio da je u tom jeziku. U prilozenom kodu, promenljivoj $m_cur_lang treba da se dodeli procitana oznaka jezika.

Al' nece pa nece...

Kôd:

<pre>
<?php

echo preg_match ('#\<lang( (.)*)*\>#', '  <lang id="sr">  ');

$input = "nivo1<lang>nivo2<lang>nivo3<lang>nivo4</lang></lang>nivo2</lang>nivo1<lang>nivo2</lang>nivo1";

echo "input = $input\n";

$parsed = parseLang ($input, 'sr');

print_r ($parsed);

echo "result = " . joinLang ($parsed);

function parseLang ($p_input, $p_def_lang) {
        $regex = '#\<lang\>((?:[^<]|\<(?!/?lang\>)|(?R))+)\</lang\>#';
       
        if (preg_match ($regex, $p_input)) {
                $split = preg_split ($regex, $p_input,2);

                //tekuci nivo, prefiks
                unset ($m_out);
                $m_out['lang'] = $p_def_lang;
                $m_out['value'] = $split[0];
                $out[0] = $m_out;

                // sledeci nivo po dubini
                $m_input = $p_input;
                if (strlen ($split[0]) > 0) $m_input = substr ($m_input, strlen ($split[0]));
                if (strlen ($split[1]) > 0) $m_input = substr ($m_input, 0, - strlen ($split[1]));
               
                $m_cur_lang = $p_def_lang; // ovde treba izvuci vrednost iz lang taga
               
                $m_input = preg_replace ($regex, '$1', $m_input);               

                unset ($m_out);
                $m_out[0] = parseLang ($m_input, $m_cur_lang);
                $out[1] = $m_out;
               
                // tekuci nivo, sufiks
                unset ($m_out);
                $m_out['lang'] = $p_def_lang;
                $m_out = parseLang ($split[1], $m_out['lang']);
                $out[2] = $m_out;
                       
                $m_result = $out;
        } else {
                $m_result['lang'] = $p_def_lang;
                $m_result['value'] = $p_input;
        }
        return ($m_result);
}

function joinLang ($p_input) {
        $m_result = '';
        foreach ($p_input as $m_item) {
                if (isset ($m_item['value'])) {
                        if (! empty ($m_item['value'])) {
                                $m_result .= '<lang' /* id="' . $m_item['lang'] . '"'*/ . '>' . $m_item['value'];
                        }
                } else {
                        $m_result .= joinLang ($m_item);
                }
        }
        $m_result .= '</lang>';
        return ($m_result);
}

?>
</pre>



Vreme je GMT +2. Trenutno vreme je 06:27.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.