Ja sam vise iz radoznalosti poceo da se igram sa
http://jsoup.org/ . Njega koristim za parsiranje i DOM. Sam sam napisao socket deo (zbog proxy-a), nekoristim ugradjeni i po testovima sto sam radio u sekundi imam 200 konkurentnih niti na single masini (cpu i3-m330 i 4gb rama). Daleko brze radi od php varijante.
edit: ovo 200/sec se odnosi da toliko strana obradim. Ono sto sam ja radio je pravio analizu linkova