DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > PHP
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

PHP PHP aplikacije, Smarty, PEAR

Odgovori
 
Alati teme Način prikaza
Staro 27. 03. 2010.   #1
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default provera duplikata fajlova

Treba da sprecim da se 2 iste slike uploaduju, pa trazim sto efikasniji nacin za to.

Da li se crc32 moze pouzdano koristiti za detekciju duplikata? On je pre svega predvidjen za detekciju gresaka, i cuo sam da on ima mnogo vecu sansu za koliziju kljuceva(da sve razlicite vrednosti daju isti hash) od npr. md5, ali je i dosta brzi. Posto se radi o slikama od po 7-10MB performanse nisu zanemarljiva stvar, ali me brine da se ne desi da u nekom trenutku dve razlicite slike imaju isti "potpis" ? Kolike su tacno sanse za koliziju i da li treba brinuti o tome sa nekih 300K slika u bazi?
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 27. 03. 2010.   #2
dinke
Super Moderator
Invented the damn thing
 
Avatar dinke
 
Datum učlanjenja: 06.06.2005
Poruke: 2.371
Hvala: 370
701 "Hvala" u 194 poruka
dinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamendinke je pravi dragi kamen
Default

Ja bih pre probao da procitam exif podatke (npr timestamp snimka i model kamere koji je koriscen), mada ne znam sa kakvim slikama baratas, tj. da li je exif available.
__________________
Caught in a Web|Blogodak
With great power comes great responsibility!
dinke je offline   Odgovorite uz citat
Staro 28. 03. 2010.   #3
zlukic
novi član
Na probnom radu
 
Avatar zlukic
 
Datum učlanjenja: 21.02.2009
Lokacija: Banja Luka
Poruke: 15
Hvala: 0
1 "Hvala" u 1 poruci
zlukic is on a distinguished road
Default

Pokusaj da imenujes slike tako da nikad ne dodju u koliziju. Mozda jedna od varijanti da ti bude da u njihovo ime dodajes datum do milisekunde ili da ih u potpunosti zamjenis sa datumom. U bazi drzi njihov opis koji ces smjesti u alt="" i to bi bilo dovoljno.

U nekim aplikacijam gdje se unose vece kolicine slika koristio sam takvan nacina upisa i nikad nije doslo do dupliranja. Isao sam i krak dalje te sam prema datumu radio i sistem foldera u koje sam unosio slike. Kasnije mi je to pomoglo da lakse radim arhiviranje. Laksa je automatizacija jer postoji neka logika bez potrebe da citam vrijeme upisa ili modifikacije slike. Ako dodje do pogreske pri unosu lako je zamjeniti sliku pod istim imenom.

Ovakav ili slican nacin imenovanja slika primjetio sam da koriste neke aplikacije koje dnevno primaju vise hiljada slika.
zlukic je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #4
DejanVesic
old school
Professional
 
Avatar DejanVesic
 
Datum učlanjenja: 15.06.2005
Lokacija: Novi Beograd
Poruke: 448
Hvala: 21
70 "Hvala" u 46 poruka
DejanVesic će postati "faca" uskoro
Default

Kako CRC32 ima 2^32 kombinacija, šansa da ti dve od 300K slika upadne u istu klasu (da daju isti CRC a da su zaista različite) je oko 0.007 %

Ja bih išao na MD5
__________________
http://www.vesic.org | Blog: http://www.vesic.org/blog/ | Fina kolekcija programa: http://www.vesic.org/programi/
DejanVesic je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #5
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

@dinke: teoretski bih mogao da gledam ime fotografa i vreme, sto nije losa ideja.. a mozda postoji i neki ID kamere u Exif-u, odnosno IPTC... istrazicu..

@zlukic: nije problem u imenovanju, problem je da neko ne uploaduje istu sliku 2 puta

@dejan: mislim da to ne mozes tako da racunas, jer tu se primenjuje onaj birthday paradox, a i nije idealna hash funkcija u pitanju (da pokrije svih 2^32 kombinacija)

Anyhow, znaci md5() za sad, i meni se cini... a i Dinketov predlog je odlican...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #6
zira
Vladan Zirojević
Grand Master
 
Datum učlanjenja: 09.06.2006
Lokacija: Beograd/Trebinje
Poruke: 903
Hvala: 106
183 "Hvala" u 82 poruka
zira ima spektakularnu auruzira ima spektakularnu auruzira ima spektakularnu auru
Pošaljite ICQ poruku za zira Pošaljite poruku preko Skype™ za zira
Default

MD5 bi bio ok. Samo je pitanje je koliko ce ti hash pomoci kada su slike u pitanju, jer je dovoljno da slika bude u drugom formatu, optimizovana ili u malo drugacijoj rezoluciji i tebi ce izgledati da su razlicite, iako su prakticno "iste".

Pretpostavljam da je jedini nacin da se u vecini slucajeva obezbijedis od duplikata upotreba nekog liba za poredjenje slika po slicnosti (piksela).
__________________
Donesi.com SrediMe
zira je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #7
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Možeš da probaš sa sledećim trikom: porediš ovim redosledom:

* Veličina fajla
* MD5 poslednjih n bajtova fajla (tipa 16k), ovo bi trebalo da ide brzo.

Pa tek ako su oba ova broja ista, radiš MD5 celih fajlova.
__________________
blog
jablan je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #8
McKracken
Siva eminencija
Grand Master
 
Avatar McKracken
 
Datum učlanjenja: 24.06.2005
Lokacija: Belgrade
Poruke: 930
Hvala: 192
259 "Hvala" u 129 poruka
McKracken ima spektakularnu auruMcKracken ima spektakularnu auruMcKracken ima spektakularnu auru
Pošaljite poruku preko Skype™ za McKracken
Default

Imas nekoliko image hashing resenja koja podrzavaju i perceptualno poredjenje,

npr: http://www.phash.org/
McKracken je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #9
zidoo
profesionalac
Qualified
 
Avatar zidoo
 
Datum učlanjenja: 17.03.2006
Poruke: 109
Hvala: 9
15 "Hvala" u 10 poruka
zidoo is on a distinguished road
Default

md5, imam bazu od ~400.000 slika i za sad ni jedan problem ... Dejan rece da je sansa 0.007% ... veca je sansa da meteor pogodi server ...
zidoo je offline   Odgovorite uz citat
Staro 29. 03. 2010.   #10
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

@zidoo: za md5 nije frka, sanse za koliziju sa minimalne, samo je on malo sporiji i zahtevniji, zato sam mislio da mozda koristim neki drugi...

@McKracken: thanks za ovo, pogledacu

@zira: svestan sam toga, ali to mi nije toliki problem, ovo je arhiva za profi fotografe i samo je bitno da neko greskom ne uveze iste slike 2 puta, a ako bude nekih izmena (tipa editori vrate sliku na doradu) to ionako tretiraju kao potpuno novu sliku, tako da me to ne pogadja.

@jablan: hmmm, mudro zboris
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Odgovori



Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
Status servisa na serveru, provera? pcigre Web Hosting, web serveri i operativni sistemi 9 22. 01. 2009. 21:11
MySQL uklanjanje duplikata Nemanja Avramović SQL baze podataka - Sponzor: Baze-Podataka.net 5 08. 02. 2008. 12:24
nalazenje duplikata ivanhoe PHP 4 08. 01. 2007. 13:36
Provera izgleda web aplikacije na PDA Pedja Web site, dizajn i multimedia 9 30. 06. 2006. 10:16
WHOIS Provera domena bluesman Web Hosting, web serveri i operativni sistemi 7 30. 10. 2005. 17:08


Vreme je GMT +2. Trenutno vreme je 01:24.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.