posto nemam ideju sta zapravo procesiras i da li zelis to na bilo koji nacin da skaliras, nemam predstavu da li bi ti hadoop kao platforma za distribuirani map-reduce odradio posao:
http://labs.google.com/papers/mapreduce.html
http://hadoop.apache.org/
anyway - moja iskustva su vise nego pozitivna po pitanju horizontalnog skaliranja ukoliko ti pomenuti model odgovara. u paketu dobijas i web/terminal konzolu kojom mozes da pratis sta se desava, takodje imas i cascading za workflow:
http://www.cascading.org/
naravno, ukoliko je to ono sto ti treba - nema potrebe da kreces od nule, osim ukoliko ti ne odgovara model koji hadoop nudi, ili prosto radis nesto za sebe.