DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Regular expression i htaccess
Beach Wedding Dresses - Looking for the Wedding Dress? Here, 1dress.co.uk stunning collection of beach wedding dresses is just what you are looking for.
charles wang

Regular expression i htaccess regex, PCRE, POSIX, upotreba Apache .htaccess , mod_rewrite

Odgovori
 
Alati teme Način prikaza
Staro 22. 08. 2011.   #1
Ivan
Psychedelictrance freak
Wrote a book
 
Avatar Ivan
 
Datum učlanjenja: 04.06.2006
Lokacija: Srbija, Beograd
Poruke: 1.008
Hvala: 325
907 "Hvala" u 34 poruka
Ivan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoroIvan će postati "faca" uskoro
Pošaljite poruku preko Skype™ za Ivan
Default PHP: Kako da uhvatim sve varijacije http-equiv="refresh" i izvucem URL

Kao sto pise u naslovu ... hvala Slicna tema ima ovde: http://stackoverflow.com/questions/1...fresh-meta-tag, ali mi se cini da resenja nisu najbolja.
Ivan je offline   Odgovorite uz citat
Staro 22. 08. 2011.   #2
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
893 "Hvala" u 153 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

Probaj...

http://codepad.org/0zlzTmUH

PHP kôd:
<?php

$html 
'<head>
<meta name="description" content="Free Web tutorials" />
<meta name="keywords" content="HTML,CSS,XML,JavaScript" />
<meta name="author" content="Hege Refsnes" />
<meta http-equiv="refresh" content="0; url=http://example.com/">
</head>'
;

$html strtolower($html);

$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$e $xpath->query("//meta[@http-equiv='refresh']/@content");

$content $e->item(0)->textContent;
$content explode('='$content);
$url trim($content[1]);

echo 
$url;

?>
__________________
Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting
webarto je offline   Odgovorite uz citat
"Hvala" webarto za poruku:
Staro 22. 08. 2011.   #3
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
591 "Hvala" u 193 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

Nesto ovako:
PHP kôd:
$regexp '/<meta\s+http-equiv\s*=\s*[\'"]?refresh[\'"]?\s+content=[\'"]?\d+;\s+url\s*=\s*([^\'"]+)["\']/';
$found preg_match($regexp$html$matches);
if(
$found)
{
    
$redirection_url $matches[1];

__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
"Hvala" dinke za poruku:
Staro 22. 08. 2011.   #4
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
893 "Hvala" u 153 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

Opet mislim da ćeš ovako najprije ubosti sa RegEx...

PHP kôd:
$html '<head>
<meta name="description" content="Free Web tutorials" />
<meta name="keywords" content="HTML,CSS,XML,JavaScript" />
<meta name="author" content="Hege Refsnes" />
<meta http-equiv="refresh" content="0; url=http://example.com/">
</head>'
;

preg_match('#url.*?=.*?([^"\>\s]+)#is'$html$matches);

echo 
$matches[1]; 
@Dinke, fali ti case insensitive i single/multi line modifier, neki siteovi stavljaju META velikim itd...
__________________
Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting

Poslednja izmena od webarto : 22. 08. 2011. u 15:47.
webarto je offline   Odgovorite uz citat
"Hvala" webarto za poruku:
Staro 22. 08. 2011.   #5
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
591 "Hvala" u 193 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

Citat:
Originalno napisao webarto Pogledajte poruku
@Dinke, fali ti case insensitive i single/multi line modifier, neki siteovi stavljaju META velikim itd...
Uuu pa super ako samo to fali posto sam regexp kucao sa zeninog desktopa onako iz glave bez testiranja

Inace slazem se za case (/i) ali ne i za multiline modifier posto \s u mom slucaju hvata i \n. Da sam koristio negde dot (.) trebao bi /s. Inace kad smo kod modifiera za utf dokumente treba dodati i u.
__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
"Hvala" dinke za poruku:
Staro 22. 08. 2011.   #6
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
591 "Hvala" u 193 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

^Btw upravo testirao svoj primer na svojoj makini, regexp radi (ipak su to godine iskustva u site scrappingu haha). Naravno treba dodati /i za case insensitive search eventualno /u za unicode.
__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
"Hvala" dinke za poruku:
Staro 22. 08. 2011.   #7
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
893 "Hvala" u 153 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

Da, vidi se da si iskusan sa ' " I ovako nešto je validno, po meni opet najbolje pucati na url=, ne bi trebalo da ni jedan drugi element sadrži slično, a svejedno ovaj preg_match će da dohvati samo prvi

Kôd:
<META CONTENT='0; url=www.google.com" http-equiv=refresh />
__________________
Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting

Poslednja izmena od webarto : 22. 08. 2011. u 18:49.
webarto je offline   Odgovorite uz citat
Staro 22. 08. 2011.   #8
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
591 "Hvala" u 193 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

^Realno ja sam pokupio primere sa http://en.wikipedia.org/wiki/Meta_refresh i testirao na osnovu toga, za siri spektar funkcionalnosti treba imati u vidu mnogo toga, npr da url deo moze u potpunosti nedostajati (u tom slucaju mislim da ucitava ponovo istu stranu) itd.

Tvoj primer nije dobar posto moze da pokupi url sa bilo kog dela strane. Ja iskreno nisam video nigde da neko content deo stavlja pre http-equiv, nemam pojma da li je regularno, ali okay ako zakeras mozemo onda i ovako

PHP kôd:
$regexp '/<meta.+?content=[\'"]?\d+;\s+url\s*=\s*([^\'"]+)["\'].*?>/ius';
$found preg_match($regexp$html$matches);

if(
$found)
{
    
$redirection_url $matches[1];

Ukratko hvata bilo koji url unutar content dela unutar meta elementa. Obrati paznju na ? koji setuje no-greedy parsing (isto bi moglo i sa /U modifierom).
__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
Staro 22. 08. 2011.   #9
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
893 "Hvala" u 153 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

Validan je HTML ali mislim da će se tako nešto javiti u 1 od 100
I ja skoro sve radim sa RegEx, ali u ovom slučaju gdje ima previše varijacija, mislim da je bolje koristiti DOM parser, čak i ovu "zakeranu" verziju pogodi bez izmjene, da ne kažem da je lakše nego pisati RegEx
Neće pokupiti sa bilo kojeg dijela, već prvi na koji naleti, a u suštini samo jedan bi trebao i biti... sve je moguće

http://codepad.org/tbcKu5qB
__________________
Github // LinkedIn // PHP // ZCE // Stackoverflow PHP // Site5 Web Hosting
webarto je offline   Odgovorite uz citat
Staro 22. 08. 2011.   #10
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
591 "Hvala" u 193 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

Sto se DOM Parsera tice, svojevremeno kada sam radio na parseru za Blogodak ja sam za filtriranje feed-ova pokusao da koristim XML parsere ali sam imao uzasne probleme svog svakojakog html djubreta koje se moglo naci u validnim xml feed-ovima. Mislim da sam koristio expat a ne DOM (event based parser) ali to je bilo davno

Uglavnom, sto se xml-a tice, drzim se @ivanhoe krilatice - najbolji nacin da se parsira xml je da se pravis da uopste nije xml
__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 04:41.


Blogodak - Domaci blogovi na jednom mestu Caught in a web - web dev blog
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.