nalazenje duplikata
klijent je kupio 2 velike baze sa gomilama clanaka (jedna je 520MB, a druga oko 1GB). Zapravo radi se o vrlo jednostavnim mysql tabelama sa par polja, sami clanci se nalaze u polju tipa text, a ostala polja su neke statistike o broju reci i slova.
E sad bi trebalo da ja te dve tabele pretvorim u jednu, ali da pritom eliminisem duplikate. To ne bi bio neki veliki problem da su ti duplikati identicni byte po byte, ali postoji sansa da postoje neke sitne razlike u formatiranju , extra spejsovi i slicno.
Jel postoji neki efikasan nacin da merdzujem obe baze, osim brute-force proverave svakog sa svakim ? (posto ce to da traje danima)
__________________
Leadership is the art of getting people to want to do what you know must be done.
|