DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   Regular expression i htaccess (http://www.devprotalk.com/forumdisplay.php?f=41)
-   -   PHP: Kako da uhvatim sve varijacije http-equiv="refresh" i izvucem URL (http://www.devprotalk.com/showthread.php?t=10310)

Ivan 22. 08. 2011. 05:04

PHP: Kako da uhvatim sve varijacije http-equiv="refresh" i izvucem URL
 
Kao sto pise u naslovu ... hvala ;) Slicna tema ima ovde: http://stackoverflow.com/questions/1...fresh-meta-tag, ali mi se cini da resenja nisu najbolja.

webarto 22. 08. 2011. 11:29

Probaj...

http://codepad.org/0zlzTmUH

PHP kôd:

<?php

$html 
'<head>
<meta name="description" content="Free Web tutorials" />
<meta name="keywords" content="HTML,CSS,XML,JavaScript" />
<meta name="author" content="Hege Refsnes" />
<meta http-equiv="refresh" content="0; url=http://example.com/">
</head>'
;

$html strtolower($html);

$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$e $xpath->query("//meta[@http-equiv='refresh']/@content");

$content $e->item(0)->textContent;
$content explode('='$content);
$url trim($content[1]);

echo 
$url;

?>


dinke 22. 08. 2011. 15:06

Nesto ovako:
PHP kôd:

$regexp '/<meta\s+http-equiv\s*=\s*[\'"]?refresh[\'"]?\s+content=[\'"]?\d+;\s+url\s*=\s*([^\'"]+)["\']/';
$found preg_match($regexp$html$matches);
if(
$found)
{
    
$redirection_url $matches[1];



webarto 22. 08. 2011. 15:40

Opet mislim da ćeš ovako najprije ubosti sa RegEx...

PHP kôd:

$html '<head>
<meta name="description" content="Free Web tutorials" />
<meta name="keywords" content="HTML,CSS,XML,JavaScript" />
<meta name="author" content="Hege Refsnes" />
<meta http-equiv="refresh" content="0; url=http://example.com/">
</head>'
;

preg_match('#url.*?=.*?([^"\>\s]+)#is'$html$matches);

echo 
$matches[1]; 

@Dinke, fali ti case insensitive i single/multi line modifier, neki siteovi stavljaju META velikim itd...

dinke 22. 08. 2011. 18:05

Citat:

Originalno napisao webarto (Napišite 101159)
@Dinke, fali ti case insensitive i single/multi line modifier, neki siteovi stavljaju META velikim itd...

Uuu pa super ako samo to fali posto sam regexp kucao sa zeninog desktopa onako iz glave bez testiranja :)

Inace slazem se za case (/i) ali ne i za multiline modifier posto \s u mom slucaju hvata i \n. Da sam koristio negde dot (.) trebao bi /s. Inace kad smo kod modifiera za utf dokumente treba dodati i u.

dinke 22. 08. 2011. 18:36

^Btw upravo testirao svoj primer na svojoj makini, regexp radi (ipak su to godine iskustva u site scrappingu haha). Naravno treba dodati /i za case insensitive search eventualno /u za unicode.

webarto 22. 08. 2011. 18:46

Da, vidi se da si iskusan sa ' " :) I ovako nešto je validno, po meni opet najbolje pucati na url=, ne bi trebalo da ni jedan drugi element sadrži slično, a svejedno ovaj preg_match će da dohvati samo prvi :)

Kôd:

<META CONTENT='0; url=www.google.com" http-equiv=refresh />

dinke 22. 08. 2011. 19:47

^Realno ja sam pokupio primere sa http://en.wikipedia.org/wiki/Meta_refresh i testirao na osnovu toga, za siri spektar funkcionalnosti treba imati u vidu mnogo toga, npr da url deo moze u potpunosti nedostajati (u tom slucaju mislim da ucitava ponovo istu stranu) itd.

Tvoj primer nije dobar posto moze da pokupi url sa bilo kog dela strane. Ja iskreno nisam video nigde da neko content deo stavlja pre http-equiv, nemam pojma da li je regularno, ali okay ako zakeras mozemo onda i ovako :)

PHP kôd:

$regexp '/<meta.+?content=[\'"]?\d+;\s+url\s*=\s*([^\'"]+)["\'].*?>/ius';
$found preg_match($regexp$html$matches);

if(
$found)
{
    
$redirection_url $matches[1];


Ukratko hvata bilo koji url unutar content dela unutar meta elementa. Obrati paznju na ? koji setuje no-greedy parsing (isto bi moglo i sa /U modifierom).

webarto 22. 08. 2011. 19:55

Validan je HTML ali mislim da će se tako nešto javiti u 1 od 100 :)
I ja skoro sve radim sa RegEx, ali u ovom slučaju gdje ima previše varijacija, mislim da je bolje koristiti DOM parser, čak i ovu "zakeranu" verziju pogodi bez izmjene, da ne kažem da je lakše nego pisati RegEx :)
Neće pokupiti sa bilo kojeg dijela, već prvi na koji naleti, a u suštini samo jedan bi trebao i biti... sve je moguće :)

http://codepad.org/tbcKu5qB

dinke 22. 08. 2011. 20:14

Sto se DOM Parsera tice, svojevremeno kada sam radio na parseru za Blogodak ja sam za filtriranje feed-ova pokusao da koristim XML parsere ali sam imao uzasne probleme svog svakojakog html djubreta koje se moglo naci u validnim xml feed-ovima. Mislim da sam koristio expat a ne DOM (event based parser) ali to je bilo davno :)

Uglavnom, sto se xml-a tice, drzim se @ivanhoe krilatice - najbolji nacin da se parsira xml je da se pravis da uopste nije xml ;)


Vreme je GMT +2. Trenutno vreme je 03:55.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.