DOM je spor i trosi memoriju, regexp je majka za ovakve stvari:
PHP kôd:
preg_match_all('|<a[^>]+href\s*=\s*"http://([^"]+)"|i', $html, $urls1);
preg_match_all("|<a[^>]+href\s*=\s*'http://([^']+)'|i", $html, $urls2);
preg_match_all('|<a[^>]+href\s*=\s*http://([^ ]+)\s|i', $html, $urls3);
$all_urls = array_merge($urls1[1], $urls2[1], $urls3[1]);
ova 3 regexpa su tu da pokriju sva 3 moguca slucaja za formatiranje linkova, izbaci one koji ti ne trebaju. Mozda bi ovo sve moglo da se napise i kao jedan regexp, ali me mrzelo da mozgam mnogo