Validan je HTML ali mislim da će se tako nešto javiti u 1 od 100

I ja skoro sve radim sa RegEx, ali u ovom slučaju gdje ima previše varijacija, mislim da je bolje koristiti DOM parser, čak i ovu "zakeranu" verziju pogodi bez izmjene, da ne kažem da je lakše nego pisati RegEx

Neće pokupiti sa bilo kojeg dijela, već prvi na koji naleti, a u suštini samo jedan bi trebao i biti... sve je moguće
http://codepad.org/tbcKu5qB