27. 03. 2010. | #1 |
Ivan Dilber
Sir Write-a-Lot
|
provera duplikata fajlova
Treba da sprecim da se 2 iste slike uploaduju, pa trazim sto efikasniji nacin za to.
Da li se crc32 moze pouzdano koristiti za detekciju duplikata? On je pre svega predvidjen za detekciju gresaka, i cuo sam da on ima mnogo vecu sansu za koliziju kljuceva(da sve razlicite vrednosti daju isti hash) od npr. md5, ali je i dosta brzi. Posto se radi o slikama od po 7-10MB performanse nisu zanemarljiva stvar, ali me brine da se ne desi da u nekom trenutku dve razlicite slike imaju isti "potpis" ? Kolike su tacno sanse za koliziju i da li treba brinuti o tome sa nekih 300K slika u bazi?
__________________
Leadership is the art of getting people to want to do what you know must be done. |
27. 03. 2010. | #2 |
Super Moderator
Invented the damn thing
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
701 "Hvala" u 194 poruka
|
Ja bih pre probao da procitam exif podatke (npr timestamp snimka i model kamere koji je koriscen), mada ne znam sa kakvim slikama baratas, tj. da li je exif available.
|
28. 03. 2010. | #3 |
novi član
Na probnom radu
Datum učlanjenja: 21.02.2009
Lokacija: Banja Luka
Poruke: 15
Hvala: 0
1 "Hvala" u 1 poruci
|
Pokusaj da imenujes slike tako da nikad ne dodju u koliziju. Mozda jedna od varijanti da ti bude da u njihovo ime dodajes datum do milisekunde ili da ih u potpunosti zamjenis sa datumom. U bazi drzi njihov opis koji ces smjesti u alt="" i to bi bilo dovoljno.
U nekim aplikacijam gdje se unose vece kolicine slika koristio sam takvan nacina upisa i nikad nije doslo do dupliranja. Isao sam i krak dalje te sam prema datumu radio i sistem foldera u koje sam unosio slike. Kasnije mi je to pomoglo da lakse radim arhiviranje. Laksa je automatizacija jer postoji neka logika bez potrebe da citam vrijeme upisa ili modifikacije slike. Ako dodje do pogreske pri unosu lako je zamjeniti sliku pod istim imenom. Ovakav ili slican nacin imenovanja slika primjetio sam da koriste neke aplikacije koje dnevno primaju vise hiljada slika. |
29. 03. 2010. | #4 |
old school
Professional
Datum učlanjenja: 15.06.2005
Lokacija: Novi Beograd
Poruke: 448
Hvala: 21
70 "Hvala" u 46 poruka
|
Kako CRC32 ima 2^32 kombinacija, šansa da ti dve od 300K slika upadne u istu klasu (da daju isti CRC a da su zaista različite) je oko 0.007 %
Ja bih išao na MD5
__________________
http://www.vesic.org | Blog: http://www.vesic.org/blog/ | Fina kolekcija programa: http://www.vesic.org/programi/ |
29. 03. 2010. | #5 |
Ivan Dilber
Sir Write-a-Lot
|
@dinke: teoretski bih mogao da gledam ime fotografa i vreme, sto nije losa ideja.. a mozda postoji i neki ID kamere u Exif-u, odnosno IPTC... istrazicu..
@zlukic: nije problem u imenovanju, problem je da neko ne uploaduje istu sliku 2 puta @dejan: mislim da to ne mozes tako da racunas, jer tu se primenjuje onaj birthday paradox, a i nije idealna hash funkcija u pitanju (da pokrije svih 2^32 kombinacija) Anyhow, znaci md5() za sad, i meni se cini... a i Dinketov predlog je odlican...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
29. 03. 2010. | #6 |
Vladan Zirojević
Grand Master
|
MD5 bi bio ok. Samo je pitanje je koliko ce ti hash pomoci kada su slike u pitanju, jer je dovoljno da slika bude u drugom formatu, optimizovana ili u malo drugacijoj rezoluciji i tebi ce izgledati da su razlicite, iako su prakticno "iste".
Pretpostavljam da je jedini nacin da se u vecini slucajeva obezbijedis od duplikata upotreba nekog liba za poredjenje slika po slicnosti (piksela). |
29. 03. 2010. | #7 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
|
Možeš da probaš sa sledećim trikom: porediš ovim redosledom:
* Veličina fajla * MD5 poslednjih n bajtova fajla (tipa 16k), ovo bi trebalo da ide brzo. Pa tek ako su oba ova broja ista, radiš MD5 celih fajlova.
__________________
blog |
29. 03. 2010. | #8 |
Siva eminencija
Grand Master
|
Imas nekoliko image hashing resenja koja podrzavaju i perceptualno poredjenje,
npr: http://www.phash.org/ |
29. 03. 2010. | #9 |
profesionalac
Qualified
Datum učlanjenja: 17.03.2006
Poruke: 109
Hvala: 9
15 "Hvala" u 10 poruka
|
md5, imam bazu od ~400.000 slika i za sad ni jedan problem ... Dejan rece da je sansa 0.007% ... veca je sansa da meteor pogodi server ...
|
29. 03. 2010. | #10 |
Ivan Dilber
Sir Write-a-Lot
|
@zidoo: za md5 nije frka, sanse za koliziju sa minimalne, samo je on malo sporiji i zahtevniji, zato sam mislio da mozda koristim neki drugi...
@McKracken: thanks za ovo, pogledacu @zira: svestan sam toga, ali to mi nije toliki problem, ovo je arhiva za profi fotografe i samo je bitno da neko greskom ne uveze iste slike 2 puta, a ako bude nekih izmena (tipa editori vrate sliku na doradu) to ionako tretiraju kao potpuno novu sliku, tako da me to ne pogadja. @jablan: hmmm, mudro zboris
__________________
Leadership is the art of getting people to want to do what you know must be done. |
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
Status servisa na serveru, provera? | pcigre | Web Hosting, web serveri i operativni sistemi | 9 | 22. 01. 2009. 21:11 |
MySQL uklanjanje duplikata | Nemanja Avramović | SQL baze podataka - Sponzor: Baze-Podataka.net | 5 | 08. 02. 2008. 12:24 |
nalazenje duplikata | ivanhoe | PHP | 4 | 08. 01. 2007. 13:36 |
Provera izgleda web aplikacije na PDA | Pedja | Web site, dizajn i multimedia | 9 | 30. 06. 2006. 10:16 |
WHOIS Provera domena | bluesman | Web Hosting, web serveri i operativni sistemi | 7 | 30. 10. 2005. 17:08 |