PDA

Pogčedajte punu verziju : Svetska premijera i testiranje pretraživača www.edgios.com


Miloje Sekulic
12. 10. 2008., 04:05
Na adresi www.edgios.rs (http://www.edgios.rs) je projekat novog pretraživača koji je napravljen kod nas, naravno uz finansiranje iz inostranstva. Ovo je potpuno novi koncept građenja pretraživača. Detaljno objašnjenje (http://ssl.edgios.com/sr/) ideje i kako je predviđeno da radi imate na sajtu a suština je u građenju mreže korisnika koji dele svoje resurse i informacije o sajtovima koje posećuju.

Sada smo u fazi testiranja u realnim uslovima. Zato nam treba nekoliko stotina korisnika koji će ga instalirati (http://ssl.edgios.com/sr/download.html) na svoje mašine, koristiti neko vreme i putem forme na sajtu reći razvojnom timu svoje mišljenje. Molim vas da to uradite i da pozovete prijatelje da urade isto. Možda svi zajedno postanemo deo internet istorije. :)

ivanhoe
12. 10. 2008., 07:21
jesam ja to dobro shvatio da ova stvar belezi gde ja surfujem i to onda sharuje sa ostalim korisnicima (u sklopu pretrage ili kako vec)? Ako je to tako, vec mi se ne svidja ideja.. ako nije trebalo bi malo bolje da objasnite privacy related elemente, jer verujem da ce se mnogi zabrinuti..

borstale
12. 10. 2008., 10:25
I ja sam malko zbunjen. :1041:

Eniac
12. 10. 2008., 11:11
ima i Sudoku :P

Miloje Sekulic
12. 10. 2008., 11:39
jesam ja to dobro shvatio da ova stvar belezi gde ja surfujem i to onda sharuje sa ostalim korisnicima .....trebalo bi malo bolje da objasnite privacy related elemente

Privatnost (http://ssl.edgios.com/sr/privacy.html) - ovo je naravno objašnjenje "za široke narodne mase".
Što se tiče objašnjenja ovog, i naravno drugih, pitanja vezanih za Edgios najbolje je da to učini njegov autor. Bora Agapijev će se priključiti ovoj diskusiji čim u utorak završi sastančenje sa investitorima a vi do tada spremite pitanja :)

Par čijenica o njemu: Idejni tvorac pretraživača Edgios i vođa tima koji su ga razvili Borislav Agapijev je inženjer elektrotehnike koji je diplomirao u Beogradu. Sredinom osamdesetih otišao je u Sjedinjene Američke Države, doktorirao 1992 i naredne decenije ostvario zavidnu karijeru u Intel-u. Zainteresovan za pitanja poboljšavanja tehnologije pretraživanja interneta 2000 godine ulazi u vode internet preduzetništva. Njegov prvi projekat bio je Vast pretraživač malih oglasa na vebu na adresi www.vast.com. Pretraživač Vast je baziran u San Francisku i ima najveće pretraživače na svetu u oblastima automobilskih oglasa, vila za izdavanje, kupovinu kuća i drugih. U 2006. godini njegov tvorac počinje razvoj distribuiranog pretraživača Edgios koji sada možete da testirate na adresi www.edgios.rs. U dosadašnji razvoj Edgiosa uloženo je preko milion dolara kapitala investitora iz SAD. Investitori Edgiosa su čuvena Venture Capital firma Draper Fisher Jurvetson (DFJ), poznata po investicijama u Skype, kao i Baidu (najveći kineski pretraživač). Ceo razvojni tim programera koji rade na Edgiosu je u Srbiji. To je tim mladih inženjera, najboljih studenata u svojim generacijama, pobednika na svetskim takmičenjima u matematici, fizici i programiranju.

Peca
12. 10. 2008., 13:37
jel se zna koji mu je USER_AGENT ?

kodi
12. 10. 2008., 13:54
no such thing,valjda,...
ovo ti je u principu p2p google sa distribuiranim indexom. (opet, valjda)

znaci ti browsujes stranice, i one se automatski (verovatno preko plugina nekog) upisuju kod tebe i jos u n nodova..

bas me zanima buducnost ovog projekta, i kolicina novca ulozenog u marketing da bi se doslo do recimo 1M korisnika.

kodi
12. 10. 2008., 14:20
nisam mogao da uzivam u software-u jer sam iza adsl i wifi rutera...

elem vredi ga instalirati - takav ripoff google dizajna odavno nije vidjen.
cak i settings deo sa onom naranzastom bojom...

mileusna
12. 10. 2008., 14:49
no such thing,valjda,...
ovo ti je u principu p2p google sa distribuiranim indexom. (opet, valjda)

znaci ti browsujes stranice, i one se automatski (verovatno preko plugina nekog) upisuju kod tebe i jos u n nodova..

bas me zanima buducnost ovog projekta, i kolicina novca ulozenog u marketing da bi se doslo do recimo 1M korisnika.

Ja mislim da je pak tehnički aspekt tu problematičan. Ako nešto radi kako valja, lako će se naći i korisnici, u krajnjem slučaju preko affiliate programa, plati pa se klati.

Ali kojom brzinom P2P može da izbaci rezultate pretrage? Naročito kad broj korisnika naraste, kako će ići skaliranje? Kad tražiš film na P2P ili slično brzina ti nije bitna, ali za web search jeste.

Ja sam se ovim malo bavio pre 3-4 godine i po onome što sam pročitao niko nije bio optimista po tom pitanju. Kad sam se ja u Srbiji time zanimao, možeš misliti koliko njih je u Silikonskoj dolini razmišljalo o P2P Google killeru, ali je ceo P2P koncept izgleda problematičan kada je web search u pitanju.

No eto, vidim nove startape na temu P2P pretrage, ovaj "naš" i http://www.faroo.com/ koji je koliko vidim bio i neki TechCrunch finalista 2007. Videćemo šta će biti, ali baš nisam optimističan...

Prednost P2P pretrage postoji po meni samo za kompaniju, jer ti ne treba 'iljadu servera i ogroman bandwidth. Sa druge strane оpet moraš više para da spucaš na promociju da bi naterao korisnike da instaliraju klijenta. Mislim su sve prednosti za korisnike na strani serverskih pretraživača. I da je skidanje piratskih filmova i MP3 pesama sa weba legalno, verovatno niko ne bi koristio eMule i slične servise. Ovako mu oni dođu kao nužno zlo...

P.S. Nisam isprobao. :)

Dejan Bizinger
12. 10. 2008., 16:01
Uvek je zanimljivo raditi nesto novo ili iste stvari na drugacije nacin. Slazem se sa iznetim da ce glavna prepreka za nove korisnike biti ta sto moraju instalirati softver koji ce pratiti njihovu aktivnost. Takodje, ja ne volim nesto P2P stvari, i jedini P2P servis koji koristim je Skype.

Ne treba takodje zaboraviti da je lojalnost korisnika na Web-u najvise izrazena za servise pretrazivanja. Najveci broj korisnika koristi samo Google pretragu (ukljucujuci i mene) iako verovatno i drugi pretrazivaci npr. lokalni pretrazivaci date zemlje bi verovatno dali isto toliko kvalitetne rezultate. Navika je to.

Ali ne treba se fokusirati na preprekama nego raditi na razvoju projekta. Ono sto je zanimljivo je to da (dobre) VC kompanije retko kada investiraju u nesto u sta ne vide perspektivu. Takodje, svaki projekat koji ima ukljucene osobe i iz Srbije, pogotovo ako je projekat deo neke globalne price treba pozdraviti i podrzati.

kodi
12. 10. 2008., 16:53
cak iako ne radi iza dva rutera (torenti mi rade bez problema) .. i cak iako mu ponekad treba po 10 sec da vrati rezultat?

to je make or brake momenat, probaj malo ovo... pa onda odi na google..
ubrzanje je puta 10.

Ben
12. 10. 2008., 17:23
Pozdrav svima,

Dozvolite prvo da se predstavim.
Moje ime je Benjamin Tarabar. Moja funkcija je Country Manager, Edgios, Inc.
Po zanimanju sam dipl.ing elektrotehnike, generacija 1974., ETF Beograd.

Hteo bih u nekoliko kratkih recenica da dam par objasnjenja i informacija koje se ticu Edgios projekta.

Projekat Edgios je zapocet u leto 2006. u Beogradu. Osnovna ideja je potekla od naseg osnivaca, dr Borislava Agapieva (zivi i radi u Portland, OR., USA), koji je nakon napustanja firme Intel tada vec imao iza sebe uspesno realizovan search start-up vast.com (http://www.vast.com).

Danas, dve godine nakon inicijalne ideje imamo pred sobom P2P servent koji je doduse jos u uvek ranoj fazi realizacije, ali koji je funkcionalno spreman za javno testiranje.

Ova kampanja koji trenutno vodimo moze da se smatra kao otvoreni poziv za ucesce u javnom testiranju Edgios tehnologije gde cemo pokusati da istestiramo "in vivo" sve aspekte koje je jedino moguce istesirati na mnogo vecem uzorku realnih korisnika.

Servent je prevazisao okvire tima developera i/ili njihovih prijatelja koji su do sada bili jedini korisnici. Mislim da na ovom forumu nema potrebe da se posebno naglasava da P2P namece sasvim drugaciji pristup u odnosu na centralizovane search tehnologije pogotovo iz aspekta brzine odziva, rangiranja, skaliranja itd., sto je predstavljalo poseban izazov u toku realizacije.

Najveci deo tehnoloskih dilema je iza nas, naravno ostaje da se realizuje citav niz drugih elemenata kako bi Edgios mogao da predje u mainstream za pretrazivanje. Mislim da smo na dobrom putu da to i realizujemo.

Podrudicu se da odgovorim na sva vasa eventualna pitanja. Bora ce takodje da nam se pridruzi na ovom forumu cim se vrati sa puta iz Kalifornije sredinom sledece nedelje, gde trenutno obara ruke sa investitorima (http://www.dfj.com/team/SteveJurvetson.shtml).:)

Hvala na razumevanju i sugestijama,

Ben.

caboom
12. 10. 2008., 17:30
iako mislim da je bitno podrzati svaki element inovacije u lokalitetu, pogotovo u inzenjerskom kontekstu, ne dopadaju mi se 2 stvari - jedna je kranje licna i sebicna (sorry guys, nista licno - samo glas iz rovova) - razvlacenje vast.com-a u pitch-u nad nedovrsenim proizvodom, a druga je sama nedovrsenost i, cini mi se, objektivnost nad tezinom problema i diskutabilnom efikasnoscu tehnologije. ne zelim uopste da ulazim u pitanje da li je ovo profitabilna tehnologija posto sada tek sledi par godina uzasa sa investitorima, trazenjem niche-a (hard ****...) itd. - ali uz cestitke na hrabrosti za launch, mislim da ovome sto sada vidim jedino moze da pomogne keep your heads low & hands dirty a ne konferencije posto tehnicki gledano izgleda kao da je zagrebana tek sama povrsina. bez obzira, nadam se da je moja vizura pogresna i puno srece - za search kompanije ima dosta prostora iako izgleda potpuno suprotno.

Ben
12. 10. 2008., 17:53
jesam ja to dobro shvatio da ova stvar belezi gde ja surfujem i to onda sharuje sa ostalim korisnicima (u sklopu pretrage ili kako vec)? Ako je to tako, vec mi se ne svidja ideja.. ako nije trebalo bi malo bolje da objasnite privacy related elemente, jer verujem da ce se mnogi zabrinuti..
Pitanje privatnosti je jedno od prvih koje smo ozbiljno morali da razmatramo jos na pocetku realizacije projekta. Doprinos Edgios indeksu je potpuno anoniman. Ne postoji ni jedan način da bilo ko sazna koje stranice je korisnik lično posetio. Ta informacija je isključiva privilegija korisnika i ona nikada ne napušta računar.

xippi
12. 10. 2008., 19:49
po cemu je p2p pretraga bolja od recimo... firefox plugina koji prati korisnikov surf i sve salje u jedan index, nad kojim se kasnije vrsi pretraga ?

Ben
12. 10. 2008., 20:20
Postoji nekoliko "genetskih" prednosti P2P pretrazivanja u odnosu na centralizovane tehnologije. Napomenucu samo neke od njih.
Pretpostavljam da na ovom forumu ne moram posebno da obrazlazem funkciju sadrzaja robots.txt fajla.

Evo jedan tipican primer (http://www.autotrader.com/robots.txt). Autotrader je najveci content provider na svetu kad je u pitanju prodaja automobila. Kao sto se moze videti ni jedan vodeci search bot nema dozvolu da pridje ovom sajtu (ukljucujuci i Vast..:).

Tamo je u svakom trenutku ponudjeno 7+ miliona automobila. Ni jedan od tih rezultata nije moguce pronaci ni ja jednom centralizovanom pretrazivacu. Za
P2P pretrazivac kakav je Edgios to nije nikakav problem. Content provideri su generalno pogodjeni indexiranjem njihovh stranica od strane velikih pretrazivaca i mnogi od njih pribegavaju ovakvim merama. Craigslist je mozda najbolji primer, 23 miliona malih oglasa svaki dan online, ni jedan necete naci ni na jednom pretrazivacu.

Deep web search, odnosno indexiranje dinamickih web strana je takodje nesto sto je nemoguce postici centralizovanom tehnologijom. Za Edgios, svaka dinamcka stranica je kao i svaka druga.

Peca
12. 10. 2008., 20:24
jel se zna koji mu je USER_AGENT ?

ja bih samo jos jednom zamolio da mi odgovorite koji je USER_AGENT ovog pretrazivaca?
pokusavam da napravim statistiku na mom sajtu, i zelim da u statistici broj otvorenih stranica uspesno izdvojim od broja otvorenih stranica koji spajderi otvore :)

Ben
12. 10. 2008., 20:31
Za sada, odlucili smo se da ne koristimo crawlere. Svi rezultati koji se trenutno nalaze u Edgios indexu su posledica surfovanja pojedinacnih korisnika.

mileusna
12. 10. 2008., 20:34
^ Pa po ovome što gore piše nema USER_AGENT već indeksira web kontent koji ti gledaš kroz browser. Da ima user_agent onda bi ga lako blokirali gorepomenuti sajtovi u svom robots.txt i onda se gubi ta "prednost" o kojoj Ben govori.

Peca
12. 10. 2008., 20:36
kapiram :)
cool, ali se tako dosta veliki content nece nikada ni indexirati...

mileusna
12. 10. 2008., 20:39
Pa indeksiraće se onaj kontent koji je neko već posetio. U tome je valjda i kvaka, da se indeksira i pretražuje ono što je neko već gledao i samim tim što je neko posetio neku stranicu ona dobija na težini u odnosu na one zaturene u budžaku nekog sitemapa koje niko nikad neće posetiti osim Googlebota.

Ben
12. 10. 2008., 20:46
Upravo tako. Na taj nacin povecavamo kvalitet pretrage uz relativno mnogo manji index.

zira
12. 10. 2008., 21:55
Pozdrav Bene,

Zanima me kako rjesavate (i da li rjesavate? :)) problem dinamickih stranica koje nastaju/dostupne su samo ulogovanim korisnicima, i to kroz neku custom identifikaciju, neki cookie ili slicno?

Slicno, kako rjesavate problem privatnosti u ovome slucaju:
recimo da ima neki sajt i recimo da postoje odredjeni dijelovi tog sajta koji su dostupni samo ulogovanim korisnicima sa odredjenim privilegijama. Da li vi prakticno skupljate i takve URL-ove i cinite ih javno dostupnim kroz indeks ili ne? Dakle, to ne moraju biti https stranice, vec stranice kao i svake druge, koje na neki svoj interni nacin biraju da li su vidljive ili ne nekom korisniku. Najpozeljnija varijanta je naravno da cak ni URL takvih adresa nije javni podatak. Kako vi rukujete sa takvim sadrzajima i da li ih indeksirate?

Ben
12. 10. 2008., 22:14
Ne postoji tehnicka mogucnost da sadrzaj bilo koje stranice kojoj prethodi password challenge udje u index. Isto vazi i za https protokol, cookie itd.

Korisnici mogu potpuno bezbedno da koriste svoje webmail, ebanking ili bilo koje druge privatne servise bez bojazni da ce bilo sta da se indexira. To smo sprecili tehnologijom unosenja u index koji tu mogucnost u potpunosti otklanja.

Naravno, postoje sajtovi koji nemaju nista od ovoga a njihov sadrzaj je ipak privatnog karaktera (najbolji primer je evit.com) tako da smo morali da ih hardkodujemo da ne ulaze u index.

Ben
12. 10. 2008., 22:19
greska u kucanju, mislio sam na evite.com..:)

Peca
12. 10. 2008., 22:32
a recimo privatne poruke na forumima?
forumi pamte login, pa se korisnik ne loguje uvek... pa je tesko skontati da li je nesto privatan sadrzaj ili nije...
kako to resavate?

takodje i skriveni potforumi na taj nacin postaju dostupni svima... ili ne?

MorenoArdohain
12. 10. 2008., 22:34
@Peca - ne, nisu dostupni jer ipak zahtevaju cookie.

Peca
12. 10. 2008., 22:44
pa dosta sajtova sama dodeli cookie ili sesiju :-/
recimo i Vesti.rs dodeljuju sesiju svakome...
retko koji sajt ne dodeli bar neki cookie... svi forumi to cine.
svi ti sajtovi nece biti indexirani?
ili samo oni koji su zahtevali neki submit?

sve vise sajtova postaje interaktivno i zahteva neki submit ili login... bice bas problem razdvojiti privatan sadrzaj od javnog, a ne ignorisati sve sajtove koji su zahtevali neki submit...

Ben
12. 10. 2008., 22:50
Tehnologija azuriranja indexa apslotuno onemogucava indexiranja bilo kakvog privatnog sadrzaja. NDA me sprecava da ulazim u detalje ali takva mogucnost je apsolutno iskljucena.

Dakle, ne postoji nikakva tehnicka mogucnost da bilo kakav privatni sadrzaj bude indexiran.

Gruja
12. 10. 2008., 23:37
Ako ključnu stvar sakrivate iza NDA, plašim se da ćete naići na izuzetno negativan prijem. Moraćete to da objasnite pre nego što krenete masivnije da se širite.

DejanVesic
12. 10. 2008., 23:44
Da iskopiram komentar koji sam već ostavio kod RainDog (http://www.raindog.rs/blog/?p=17)-a:

Ne sviđa mi se - ni kao ideja, a bogami ni sa strane privatnosti.

Prvo, indeks će sadržati strane koje su korisnici obišli; šta sa ostalim sajtovima za koje korisnici ne znaju? Kako doći do njihovog sadržaja? Kako proceniti kvalitet pretraživanja ako možda najbolji sajt iz date oblasti nije ni ušao u indeks jer ga niko nije posetio.

Takođe, kako će se puniti indeks? Tako što odem na Google, nađem šta mi treba, kliknem, a proces u pozadini to zapamti i pošalje na p2p Edgios mrežu.

U stvari, ovo nije novi pretraživač, ovo je ogromna web istorija učesnika u projektu.

Možda nešto debelo propuštam (ipak informacija nema dovoljno) ali za sada, ne sviđa mi se.

Gruja
12. 10. 2008., 23:45
Jedina stvar koja mi pada na pamet je da svaki upit koji se pošalje standardno, vi pošaljete još jednom, ali bez cookija. Ako je to, neki network sniffer će odmah da otkrije, tako da mi je čudno da se to krija iza NDA. Svaka druga varijanta je neki algoritam koji odlučuje šta je privatno a šta ne. Nadam se da se ne pouzdajete u tako nešto :)

Ben
12. 10. 2008., 23:59
Za sada samo mali hint: racunar koji je posetio stranicu uopste nije taj koji azurira index. To je uvek neki drugi racunar u Edgios mrezi.

ivanhoe
13. 10. 2008., 00:16
a jel postoji centralni server koji odrzava spisak svih korsnika, ili postoji neka druga fora kako se masine na P2P mrezi medjusobno pronalaze?

Ono sto ja vidim kao glavni problem je sto je potrebna ogromna baza korisnika da bi ovo zaista bilo korisno, jer postoji ono 6-steps pravilo, mi se svi manje vise krecemo u zatvorenim krugovima i uglavnom znamo za iste sajtove. Jako zanimljiva ideja, ali mislim da ce potrajati dok zameni uobicajene crawlere.

Gruja
13. 10. 2008., 00:19
Ok, ne moraš da odgovaraš dalje na ovu temu, da ne bi dospeo u probleme zbog NDA. Ja ću još malo da proanaliziram. Ne vidim kako bi drugi računar mogao da pomogne. Šta ako je taj drugi računar već ulogovan na isti taj sajt? Onda njegovi privatni podaci mogu da budu otkriveni. E sad, možda je ideja da više računara dohvati isti sadržaj, pa da se gleda da li dobijaju isti sadržaj ili imaju nešto personalizovano. I tu bi mogla da se nađe po neka rupa.

A šta je ako se uopšte ne koristi cookie autentikacija, već se session id dodaju u url? Ako takav url ode na drugu mašinu, ode i sesija tamo.

Sve u svemu, ne da ovo ne bi smelo da bude NDA, već bi trebalo da imate stranu na sajtu gde detaljno objašnjavate šta i kako radite. Bar bi ja tako radio da sam siguran u svoj pristup.

Ako vam se desi private leak, mislim da je tu priča gotova.

Ben
13. 10. 2008., 00:25
Ne postoji centralni server, ali postoji bootstrap backbone koji nam je bio neophodan da inicijalno pokrenemo mrezu. U normalnim uslovima on nece biti neophodan.

mileusna
13. 10. 2008., 01:16
Za sada samo mali hint: racunar koji je posetio stranicu uopste nije taj koji azurira index. To je uvek neki drugi racunar u Edgios mrezi.

Sad je i pitanje zašto bi neko svoj računar u slobodno vreme opterećivao indeksiranjem nekih tamo sajtova? Ok je SETI, pa kao tražimo vanzemaljce i ako ih nađemo super! Ali ovako ne vidim zašto bih svoj bandwidth trošio na tako nešto? Softver mora da bude ultra koristan, dakle bar duplo bolji od Googla, da bih ja žrtvovao deo svog bandwidtha za pomoć celom projektu.

Mislim samo razmišljam na glas...

ivanhoe
13. 10. 2008., 03:39
skype isto trosi korisnicki bandwidth, pa ga ljudi masovno koriste... trik je da ne kazes korisnicima :P

Lalaland
13. 10. 2008., 03:46
Jel' ovo ima neke veze sa Edgio.com? Da ne bude opet da se nudi resenje za nepostojeci problem (gledano sa korisnicke strane).

Ben
13. 10. 2008., 10:49
Nema.
Koliko se secam Edgio.com je bio vertical search start-up koji je ugasen pre otprilike godinu dana.
Sa nama nema nikakve veze.

srdjan
13. 10. 2008., 11:18
Primedba netehničke vrste: možda je ime samog servisa previše kriptično, ipak projekat ovog tipa treba da zaživi i van naprednih krugova korisnika.

zira
13. 10. 2008., 11:32
Tehnologija azuriranja indexa apslotuno onemogucava indexiranja bilo kakvog privatnog sadrzaja. NDA me sprecava da ulazim u detalje ali takva mogucnost je apsolutno iskljucena.

Dakle, ne postoji nikakva tehnicka mogucnost da bilo kakav privatni sadrzaj bude indexiran.

Nazalost, niste u pravu sto se tice privatnih stranica. Privatne stranice cure u index. Naravno, korisnik ne dobije sam sadrzaj stranice, vec bude redirektovan na login ili mu se prikaze login ili tako nesto, ali cinjenica je da se u indeksu nalaze URL-ovi stranica koje tamo ne bi smjele biti, tj koje su namjenjene i ciji pravi sadrzaj vide samo ulogovani korisnici (sa odredjenim privilegijama). Ne vidim nikakav smisao da se takav URL nadje u indeksu, osim sto otvara sigirnosne probleme na tako indeksiranim stranicama.

Usput, moje mrezno okruzenje ne dozvoljava rad u full modu, samo limited (prva stranica rezultata), tako da ne znam koliko privatnih stranica sa mojih sajtova imate u indeksu, ali cinjenica da ih imate u indeksu znaci da ovaj softver istog trenutka ide sa mog racunara. Zao mi je jer stvarno bih volio da vas podrzim, ali moja i privatnost mojih korisnika je na prvom mjestu.

LiquidBrain
13. 10. 2008., 11:41
Ovo moze da bude izvodljivo samo ukoliko se da source kod na uvid... Niko nece da dozvoli da nesto salje podatke nekom, a da pri tome nema nikakav uvid u to...

ikabiljo
13. 10. 2008., 12:22
Dobar dan svima.

Probacu malo bolje da objasnim stvari vezane za privatnost, da ne bi bilo zabune. Izvinjavamo se sto odmah nije detaljno objasnjeno, videcemo gde cemo dodati detaljno objasnjenje.


Za odredjeni url, u indeks se ubacuje stranica koju svako moze videti, ako otkuca taj url na proizvoljni racunar, bez ikakvog ranijeg logovanja. Tako vasi mailovi, privatni forumi, ... ne mogu uci u indeks.
Dakle url za mail je javni url, i kada odete ne njega on vam da login ekran, i ta login stranica ulazi u indeks. Dakle nijedna privatna informacija nece biti ubacena u indeks - sto mozete videti i iz snippeta. (a sam url ne sadrzi nijednu privatnu informaciju, i niko ga ne moze iskoristiti da nesto sazna. A i taj url je javna stvar, od toga da vas internet provajder ga ima - cak kolko znam po zakonu mora sve da ih i belezi)


Postoje sajtovi koji na javnim urlovima imaju privatne stvari (url je komplikovan, pa se racuna da niko ne moze da ga pogodi). Jedan od takvih sajtova je evite.com (to je razlicito od sajtova koji drze sesiju u urlu, jer oni proveravaju i ip i url). Mi trenutno imamo odredjeni spisak takvih sajtova, i njih ne ubacujemo. Korisnik moze na vise nacina da onemoguci obacivanje odredjenih sajtova u indeks:
- moze da doda odredjeni domen na blacklistu (nalazi se u websettingsu). Tu korisnik moze da doda i proizvoljne druge sajtove, ako ne zeli da budu dodati u indeks.
- moze da nam javi za taj sajt, i mi cemo ga dodati u internu blacklistu
- ako vec udje u indeks, moze da nas obavesti, i mi cemo odmah izbaciti te konkretne rezultate koji ne bi trebali da budu u indeksu, i dodati sajt na blacklistu.

Dakle, ovo moze biti problem samo za odredjeni mali broj sajtova, koji u sustini javne linkove pokusavaju da budu privatni komlikovanim url-ovima. I korisnik, pomocu blackliste, i dalje ima kontrolu.

Ako i dalje ima nesto nejasno, slobodno pitajte, nas cilj je da korisnicka privatnost bude na najvisem nivou.

Ivan
13. 10. 2008., 12:29
1. Sta je sa sajtovima koji koriste OpenID za login ? Kako njih prepoznajete ?
2. Sta je sa zlonamernim linkovima (phishing) ? Da li postoji neki nacin zastite ?
3. CSRF linkovi ? Neka logika za prepoznavanje istih ?
4. Zasto blacklist sistem, on nije uvek pametno resenje ... ?

Peca
13. 10. 2008., 12:30
5. Da li Edgios odbija da indexira sajt koji dodeljuje session cookies [a korisnik se nije logovao] ?

mileusna
13. 10. 2008., 12:38
skype isto trosi korisnicki bandwidth, pa ga ljudi masovno koriste... trik je da ne kazes korisnicima :P

Znam da Skype to isto radi, ali isto tako znam i da mi Skype pruža jeftine telefonske pozive sa čitavim svetom.

Sa druge strane ovde imamo nešto što u narednih 5 godina neće davati rezultate ni približne onome što daje Google a istovremeno ti srče resurse, dok ti Google sve daje za dž. :)

zira
13. 10. 2008., 12:50
Hvala na odgovoru, mada mi i dalje nije jasno zasto to tako radite (osim da je to jednostavno tako jer ne moze drugacije?)

Dakle, scenario je: sajt.com ima custom cookie login mehanizam, koji Edgios ne moze da razumije i on prakticno na zna da li je taj covjek ulogovan ili ne. Kada Recimo da je Edgios korisnik neki power user/admin na sajt.com koji ima pristup nekim skriptovima za upravljanje i neke globalne izmjene i odrzavanje. Sve custom. Edgios ce pratiti tog power usera i prakticno pratiti sve njegove korake i biljeziti sve njegove skripte koje je koristio i slati na indeksiranje. Kada se pokusa indeksiranje, sadrzaj tih strana nece biti otkriven, jer ce sajt.com "napu****i" indeksera koji nece imati (u ovome slucaju) privilegije da pridje toj strani.

No, ono sto je problem je sto ce taj sajt.com/admin_make_backup.do npr uci u index i kada neki Edgios korisnik ukuca ime sajta ili npr keyword backup ce izaci kao rezultat!

Dakle, koja je korist od toga, osim sto pravi stetu u smislu otvaranje potencijalnih sigurnosnih rupa?

Black liste jednostavno nisu rjesenje za to.

zira
13. 10. 2008., 13:06
Aj da ne budem baksuz :)
Iako ovaj problem vjerovatno nije moguce potpuno izbjeci, u dobrom broju slucajeva ga mozete rijesiti jednostavnim slanjem checksum-a sadrzaja uz URL sa originalnog racunara ka indekseru, uz odredjenu malu toleranciju checksuma (npr zbog banner-koda, datestamp-a i slicnih stvari).

Ako se checksumi na originalnom racunaru i indekseru znatno razlikuju, taj URL svakako ne bi trebalo indeksirati, vec potpuno zanemariti jer je vrlo vjerovatno to privatna stranica nedostupna obicnom surferu, i nema smisla listati je kao rezultat pretrage.

xippi
13. 10. 2008., 13:21
hvala na odgovoru, ali ja moram da ponovim pitanje :)

po cemu je distribuirani index bolji/brzi od centralizovanog ? po cemu je edgios bolji od nekog browserskog plugina koji prati korisnikov surf i salje sav info u centralizovan index, nad kojim je kasnije moguce vrsiti pretragu ? u oba slucaja krecemo od permise da korisnik zeli da deli lokacije po kojima surfa

btw slazem se da ovo ima vece sanse za uspeh kao open source projekat. ovako je sve previse maglovito

LiquidBrain
13. 10. 2008., 14:06
Ima josh jedna stavka a koja je mozda najbitnija... A to je da kada sufrujem ne zelim stalno da mislim o tome da li ovaj link trebam da dodam u blacklistu... to nece moci tako...

Peca
13. 10. 2008., 14:19
a najjednostavnije im je da bot na PC-u sam krstari netom, bez cookies-a...
tako sigurno nece uleteti nista privatno.

od browsera moze dobiti samo URL gde se korisnik krece.
zatim bot sam downloaduje stranicu bez cookiesa, i kraj price.
tako bi bot mogao sam da krstari dublje po sajtu, dok korisnik recimo ne koristi racunar.

jedini problem su URL adrese koje same po sebi predstavljaju autentifikaciju, tj. tajne URL adrese.
to vec ni ja nemam ideju kako resiti :S
zapravo, to bi se resilo ako bi bot od browsera dobijao samo ime domena, ne i celu URL adresu.
to bi malo vise otezalo crawling... ali ne vidim drugo resenje.

ikabiljo
13. 10. 2008., 14:32
Hvala na komentarima i zainteresovanosti!

Generalno ovo je tek prvi alfa release, imamo jos svasta mi u planu. :) Konkretno neki (komplikovaniji) oblik takvog checksuma ce biti primenjen. A za sajtove kao sto su evite i silcni, ne vidim drugi nacin osim black liste. Ako imate neki predlog, unapred hvala na pomoci. :)


- Sajtovi koji se loguju pomocu openida su sigurni
- Phishing filter trenutno nemamo. Mada rankiranje i report spam dugme mogu pomoci u tome
- edgios indeksira i sajtove koji imaju cookies, a da se korisnik nije ulogovao, ali samo kako su vidljivi bez cookiesa, znaci kao da taj url npr iz firefoxa iskopirate u explorer, i vidite sta dobijete. Generalno to moze biti osnovna provera kako nesto ulazi u indeks, mada posto je isti ip, za neke sajtove imate i dodatnu sigurnost. Ako vas zanima da li stvarno dobro radi za odredjeni specijalni sajt (koji u prethodnom testu pokazuje privatni content u drugom browseru), slobodno pitajte/posaljite na feedback.

Dakle da ponovim, jedini problem su javne komplikovane adrese, koje treba da predstavljaju privatne, ali skupili smo spisak takvih sajtova, jos uvek niko nije naleteo da je nesto privatno ubaceno u indeks. Black lista i vas feedback je samo za svaki slucaj, ako se pojavi jos nesto, u ekspresnom periodu cemo reagovati na to. I ova gore prica se odnosi na to kako da se i login screenovi ne ubacuju u indeks, sto nije neophodno da bi vasa privatnost bila zagarantovana.


Sto se tice distribuirano vs centralizovano, ima tu dosta prednosti, jos nismo sve ni implementirali, ali pored toga sto je rankiranje bolje, skalabilnost je bitna, tako da sa povecanjem broja korisnika sistem je bolji, brzi, korisniji, za razliku od centralizovanog pristupa.

Takodje, samo da kazem, posto verovatno nije objasnjeno, Edgios radi i u limited modu sasvim normalno, doduse pretraga je malo sporija i samo prva strana rezultata je vidljiva. Takodje ako nemate flat internet najbolje je da stavite "force limited mode" u settingsu.

ivanhoe
13. 10. 2008., 14:40
^ jel ti Sanja Kabiljo neki rod?

Mozda lupam, ali zar ne bi mogli da probate da uporedite stranice koje su dobili user A i user B u nekom dovoljno malom vremenskom razmaku, i ako su dobili istu stranu onda pretpostavite da je to public strana?

xippi
13. 10. 2008., 14:41
Sto se tice distribuirano vs centralizovano, ima tu dosta prednosti, jos nismo sve ni implementirali, ali pored toga sto je rankiranje bolje...


zasto ? na koji nacin bolje ?

ikabiljo
13. 10. 2008., 14:43
Nije mi Sanja Kabiljo rod. :)

A kazem, za taj tvoj primer sve ce raditi lepo, problem je ako A i B dobiju istu stranicu, a ona je i dalje smatrana za privatnu, te izuzetke posebno gledamo.

kodi
13. 10. 2008., 14:44
a taman pomislis da je ponestalo zabave na dpt-u..
jos sad kad udari ova finansijska kriza... uuuu bice veselo ;) :D

zira
13. 10. 2008., 18:59
A za sajtove kao sto su evite i silcni, ne vidim drugi nacin osim black liste. Ako imate neki predlog, unapred hvala na pomoci. :)


Pa stvar je jednostavna, ukoliko ne postoji nijedan link u indeksu na tu stranu, postoji prilicna vjerovatnoca da je ta strana privatna (ili bas nova, ali prije privatna... to se da razraditi).

Blackliste kao sto rekoh ne funkcionisu dovoljno dobro u ovome slucaju, jer ne vidim u realnosti da cete neki 54-ti po popularnosti sajt za slanje online razglednica u Kirgistanu imati u blacklisti prije nego sto nekoga izblamirate objavljivanjem njegove privatne poruke u svom indeksu? :)

Gruja
13. 10. 2008., 20:00
A sta kažete tek na newsletter pretplate, gde potvrđuješ tako što dobiješ mail sa linkom tipa:

aaa.com/subscribe-confirm.php?email=pera.peric@gmail.com

To radi bez cooki-ja, i čas posla odoše mailovi u indeks.

Peca
13. 10. 2008., 20:23
ja i dalje smatram da je jedini izlaz iz corsokaka da bot dobije samo ime domena, ne i ceo URL...
i onda bot lagano da crawle-uje sajt u pozadini... naravno u sinhronizaciji sa ostalim botovima...

Lalaland
13. 10. 2008., 20:59
Gde su tu pare?

xippi
13. 10. 2008., 21:05
dobijes kad zavrnes ruku investitoru ? :)

mileusna
13. 10. 2008., 21:18
Gde su tu pare?

Kako gde su? Sponsored search results... :)

Lalaland
13. 10. 2008., 21:36
Kako gde su? Sponsored search results... :)

Cekaj da cujemo, mozda ce i tu nesto revolucionarno da se desi :)
Bez zezanja, stvarno bih htela da doprinesem testiranjem cele stvari ali na zalost nisu me dosad ubedili svojim sales pitch-om. Ako ni nas "patrijote" ne mogu da ubede, onda ne znam koga ce... Mozda ja tu nesto propustam?

susjed
13. 10. 2008., 21:37
Za odredjeni url, u indeks se ubacuje stranica koju svako moze videti, ako otkuca taj url na proizvoljni racunar, bez ikakvog ranijeg logovanja.

Aj da ne budem baksuz :)
Iako ovaj problem vjerovatno nije moguce potpuno izbjeci, u dobrom broju slucajeva ga mozete rijesiti jednostavnim slanjem checksum-a sadrzaja uz URL sa originalnog racunara ka indekseru, uz odredjenu malu toleranciju checksuma (npr zbog banner-koda, datestamp-a i slicnih stvari).

Ako se checksumi na originalnom racunaru i indekseru znatno razlikuju, taj URL svakako ne bi trebalo indeksirati, vec potpuno zanemariti jer je vrlo vjerovatno to privatna stranica nedostupna obicnom surferu, i nema smisla listati je kao rezultat pretrage.
Ali to opet znači da se pribjegava metodi standardnog crawlera, zato to nije dobro rješenje, a backlista je definitivno najgore moguće.

bluesman
13. 10. 2008., 23:22
Lakse je prosecnog amera ubediti da mu nesto treba nego prosecnog srbina :) Ako prodje "resetanje" ovde - imace puno uspeha.

misk0
13. 10. 2008., 23:58
Pratim diskusiju i jos nisam nashao razlog koji bi me ubjedio da instaliram aplikaciju na racunar, koja mora biti pokrenuta dok browsam i koja radi nesto sto ja ne znam tacno - taman da sve vjerujem napisanom. Znaci, mogao bih to uraditi ali zasto? Puno toga sto je napisano su poredjenja koja su vrijedna velikim pretrazivacima ali meni obicnom - ne vidim.

Lalaland
14. 10. 2008., 00:01
Lakse je prosecnog amera ubediti da mu nesto treba nego prosecnog srbina :) Ako prodje "resetanje" ovde - imace puno uspeha.

Mozda je ovo IQ test? u tom slucaju, jos me manje zanima gde se po internetu muvaju ljudi spremni da svesno instaliraju nesto sto po svemu sudeci lici na spyware (makar to bio i reverse spying on big, bad corporations), sa mutnom privacy policy (sigurni ste u nasim rukama, casna pionirska), sa mutnim nacinom rada (NDA), sto zahteva rad i dosta strucnog znanja samog korisnika (back-listing), developed in Serbia (is that close to Nigeria?), sa ..... dajte nam bar pola razloga!

Miloje Sekulic
14. 10. 2008., 00:11
dajte nam bar pola razloga!

Jer sam ih zamolio da to urade u prvom postu ove diskusije :)
I svima se srdačno zahvaljujem na tome i na komentarima

mileusna
14. 10. 2008., 00:20
developed in Serbia (is that close to Nigeria?)

Valjda treba: "Is Siberia in Russia?" :)

Miloje Sekulic
14. 10. 2008., 00:34
k'o ona riba u SAD sto je upala u frku jer su Rusi ufurali u Georgiju

ivanhoe
14. 10. 2008., 00:35
Pratim diskusiju i jos nisam nashao razlog koji bi me ubjedio da instaliram aplikaciju na racunar

ma nije to problem, imao sam klijente koji su valjali potpuno beskorisne FF toolbarove vrlo uspesno (~50000 instalacija za 2 nedelje), lako je ubediti ljude da instaliraju sve i svasta, ako imas dovoljno kinte i dobar marketing... problem je spreciti ih da isto to ne deinstaliraju posle 2 dana... :)

Lalaland
14. 10. 2008., 00:51
just playing devil's advocate... uvek dobro kao trening za overcoming objections.

ikabiljo
14. 10. 2008., 01:03
Hvala svima na komentarima.

Da ponovim, ovo je prva javna verzija Edgiosa - test, odnosno alfa verzija, tako da prilican broj stvari ce biti bolji-drugaciji dok stignemo do full verzije. Glavna stvar koja ne moze da se sazna iz internog testiranja, je sta korisnici misle o tome, tako da se opet svima zahvaljujem na komentarima.

Sto se tice privatnosti, trenutno je tako, da ste na 99% sajtova sigurni, one koje niste mozete dodati na black listu, ili jos bolje obavestiti nas. Trenutno radimo na resavanju tog problema, na par nacina. A pritom, ti sajtovi ne drze nijednu stvarno vrednu privatnu informaciju. Jer je to vidljivo svakom na vasem putu do tog sajta, od lokalnog, do globalnog internet provajdera, i sire. I oni to cuvaju i rade sa tim sta im je volja, da vi to i ne znate. Samim tim nijedna stvarno vredna stvar se ne nalazi u tim informacijama, jer sajtovi koji imaju takve informacije i brinu o tome da ih niko ne moze videti. Ako se bas plasis za svoju privatnost, jednostavno ne moras instalirati ekstenziju za browser i miran si, sto se toga tice.

Sta vam Edgios nudi? Trenutno ne pretragu bolju od googla, a i mora da se instalira. Trenutno je jos indeks mali, tako da rezultati nisu potpuni, ali pojedine oblasti su prilicno dobro pokrivene, i moze se naci prilican broj zanimljivih sajtova. Ima dobar rss reader, mozete gledati vasu webistoriju (tu se nalaze sajtovi kako ste ih vi videli, znaci privatni), imate hot listu najzanimljivijih sajtova, reci, itd. Generalno za dosta stvari nudi dobru alternativu. I kao sto rekoh, jos smo u test fazi, tako da i ne ocekujemo da budemo odmah bolji od googla, ali sa vecim brojem korisnika, i dodatnim stvarima na kojima se trenutno radi, verujemo da to i nije tako daleko.
Generalno kada izadjemo iz test faze, i kada skupimo dovoljni broj korisnika, oni i nece zeleti da deinstaliraju posle par dana, iako im prvog dana mozda nije radio preterano dobro. :)

Ben
14. 10. 2008., 01:19
Mozda je ovo IQ test? u tom slucaju, jos me manje zanima gde se po internetu muvaju ljudi spremni da svesno instaliraju nesto sto po svemu sudeci lici na spyware (makar to bio i reverse spying on big, bad corporations), sa mutnom privacy policy (sigurni ste u nasim rukama, casna pionirska), sa mutnim nacinom rada (NDA), sto zahteva rad i dosta strucnog znanja samog korisnika (back-listing), developed in Serbia (is that close to Nigeria?), sa ..... dajte nam bar pola razloga!
Pitanje privatnosti je bilo jedno od prvih koje smo morali debelo da obrazlazemo investitorima jos u toku Serije A finansiranja projekta. Ne bih zeleo da ovde ostane utisak kada je u pitanju privatnost da tom problemu nismo posvetili dovoljno paznje. Na zalost, konkretna implementacija ne moze biti izlozena na otvorenom forumu.

Slazem se medjutim, i to je ovde vise puta sa pravom ponovljeno, da moramo da pronadjemo adektvatan nacin da "ubedimo" korisnike da je privatnost bila jedan od najvecih prioriteta i da je korisnik sa tog aspekta bezbedan. Za obicnog korisnika tehnicko objasnjenje moze samo da unese dodatnu konfuziju, ali na forumu kao sto je ovaj to je od kljucnog znacaja. Gledacemo da pronadjemo adekvatan nacin da to i pokazemo.

Uzgred, jedno pitanje za administratore, Bora je nekoliko puta pokusavao da se ukljuci u ovu diskusiju ali ima problem sa registracijom. Da li postoje neka ogranicenja u tom smislu s obzirom da je on trenutno u USA.

LiquidBrain
14. 10. 2008., 01:44
bezbedan 99%... i baba bi bila deda da ima onu stvar... U sustini s'obzirom da ovo nije open source proizvod, sta garantuje da ce svaki propust biti ispravljen na vreme, objavljen da postoji i te takve stvari... A sem toga... izgleda da je vreme da se vratimo na java decompile...

bora2008
14. 10. 2008., 01:52
Pozdrav svima, i hvala na komentarima i interesu.

Ovde je Borislav Agapiev, ja sam osnivac Edgiosa.

Edgios je u pocetnoj fazi i dosta stvari su jos uvek u razvoju i unapred se izvinjavamo za sve neugodnosti tokom isprobavanja.

Hteo bi samo da dodam u diskusiju perspektivu sa strane investitora iz Silikonske Doline, sa kojima sam dosta u kontaktu :)

Projekat ovoga tipa je ocigledno veoma riskantan, medjutim takodje je i veoma interesantan zbog toga sto je nagrada u slucaju uspeha ogromna. Odnos izmedju ta dva parametra je apsolutno bitan, npr 1% sanse da dobijete $1 milijardu je mnogo vredniji od $1 milion u kesu :)

Nasi clijevi u ovom momentu su da pokazemo da je moguce napraviti SKALABILNU platformu koja moze uspesno da podrzi jednu od najbitnijih aktivosti na Internetu - pretrazivanje. Skalabilnost je apsolutno najbitnija posto npr. sistemi kao Skype imaju fantastican broj masina (10M+) koje ucestvoju s tim sto je problem koji resavaju (VOIP) ni izbliza nije toliko zahtevan kao pretrazivanje. Drugim recima ukoliko pokazete da je moguce napraviti takvu plaformu koja ima ogroman potencijal, onda broj korisnika postaje problem koji je veoma bitan ali je definisan primarno troskom, tj koliko vremena/truda/znanja/para/vestine vam treba da dostignete kriticnu masu.

Inace Skype je odlican primer, posto su investitori isti :)

Druga bitna poenta je da se sve vise siri u javnosti svest da je tzv "user attention data" npr. istorija vasih pretraga i klikova koju cuvaju pretrazivaci veoma bitna i moze da bude osnova za veliko poboljsanje kvaliteta. Nas pristup je da otvoreno kazemo svima da su ti podaci bitni i zasto su bitni (za rankiranje) i da korisnici imaju kontrolu sta zelite da se deli a sta ne , za razliku od sadasnje industrije gde tu opciju nemate - oni cuvaju vase podatke koliko se njima svidja. Ogroman broj ljudi ne zna npr da Google Toolbar salje ne samo istoriju pretraga na Google nego i sve druge klikove na Google servere.

Open source je apsolutno jedna od opcija koje razmatramo, narocito za neke delove sistema, npr. interface za privatnost, s druge stvari kao sto je rankiranje ne mogu da budu open source zbog mogucnosti za manipulacijom algoritma.

Privatnost na Internetu postaje sve bitnija i bitnija, npr. ima nekoliko predloga zakona u USA i EU za regulaciju tog domena - nas pristup je otvorenost gde kazemo zasto i kako se koriste te informacije, za rankiranje, i samo pod uslovom da se korisnici slazu sa time.

U svakom slucaju trenutne kontrole za privatnost su tek na pocetku i jedan od ciljeva ove kampanje je upravo da ih poboljsamo na osnovu interakcije sa korisnicima.

U vezi jednog od komentara u vezi razvoja u Srbiji, mogu da potvrdim svima da to nije nikakav problem, ustvari naprotiv :), u razgovorima sa tehnickim ekspertima sa Stanforda, Yahoo, Google, Kontiki, Metaweb, Ask, Napster itd oni su vrlo impresionirani da se neko upusta u ovakav projekat.

zira
14. 10. 2008., 01:54
Sto se tice privatnosti, trenutno je tako, da ste na 99% sajtova sigurni, one koje niste mozete dodati na black listu, ili jos bolje obavestiti nas. Trenutno radimo na resavanju tog problema, na par nacina. A pritom, ti sajtovi ne drze nijednu stvarno vrednu privatnu informaciju. Jer je to vidljivo svakom na vasem putu do tog sajta, od lokalnog, do globalnog internet provajdera, i sire. I oni to cuvaju i rade sa tim sta im je volja, da vi to i ne znate. Samim tim nijedna stvarno vredna stvar se ne nalazi u tim informacijama, jer sajtovi koji imaju takve informacije i brinu o tome da ih niko ne moze videti. Ako se bas plasis za svoju privatnost, jednostavno ne moras instalirati ekstenziju za browser i miran si, sto se toga tice.


Ma ne morate govoriti o tome kako ste vi to tehnicki rijesili, mene od pocetka ove price malo nervira insistiranje na gore navedenom. Vidite, postoji bitna razlika izmedju cuvanja i logovanja odredjenih podataka ako to zakon nalaze sa jedne strane i dobrovoljnog pristajanja na cuvanje i logovanje podataka u interesu neke kompanije. Druga i bitna razlika bi bila sto je jedno te podatke cuvati i dati na uvid po sudskom nalogu sa jedne strane i otvoriti ih za World Wide pretrazivanje bilo kome sa druge strane. Znaci, ne da to nije isto vec je potpuno drugacije i cisto takvo objasnjenje nije na mjestu.

Nije na vama da prosudjujete da li tako otkrivene stranice sadrze privatne ili vrijedne podatke, jer to ne mozete znati, pa onda nema ni smisla da tvrdite da one ne ugrozavaju nikoga. Svaki URL koji je neko na bilo koji nacin zelio sakriti (nelinkovanjem, sesijom, custom autorizacijom, kripticnim URL-om i slicno) sadrzi potencijalno osjetljive podatke. I to treba da bude osnova sa koje se krece da bih ja i meni slicni pomislili da ste vi svjesni sta radite i da se moze imati povjerenje u vas.

Miloje Sekulic
14. 10. 2008., 01:56
Bora (http://www.blogger.com/profile/08896518470654590522) je savladao DPT a i svoj blog (http://distributedsearch.blogspot.com/2008/10/distributed-search-cloud.html) :)

GaVrA
14. 10. 2008., 02:10
Hardverski zahtevi

Procesor: klasa Pentium 4 ili noviji
RAM memorija: minimum: 512 MB, optimalno: 1GB ili više
Disk: minimum 1 GB slobodnog prostora na disku
Internet: FLAT Internet konkecija brzine 256 Kbps ili više


Molim? :1041:

ivanhoe
14. 10. 2008., 02:53
^ pa ok, ipak je ovo alpha...

torbica
14. 10. 2008., 03:46
Hm, ajmo malo lepsi ton. Meni je drago sto je covek dosao na DPT, znaci ceni ovu ekipu :)
Hajdemo prosto da mu pomognemo... Ko hoce...
Ako hocete da predstavite alfa Edgios uzivo, mozemo da organizujemo u Ozonu predstavljanje projekta, moze i ben iz Amerike da se ukljuci preko Video streama (cri internet :) )
Mozda u jednoj kvalitetnoj diskusiji mozemo jos da pripomognemo, vidim da je usvojen predlog da deo koda bude otvoren...

xippi
14. 10. 2008., 05:20
Pozdrav svima, i hvala na komentarima i interesu.

Ovde je Borislav Agapiev, ja sam osnivac Edgiosa.

Edgios je u pocetnoj fazi i dosta stvari su jos uvek u razvoju i unapred se izvinjavamo za sve neugodnosti tokom isprobavanja.

Hteo bi samo da dodam u diskusiju perspektivu sa strane investitora iz Silikonske Doline, sa kojima sam dosta u kontaktu :)

Projekat ovoga tipa je ocigledno veoma riskantan, medjutim takodje je i veoma interesantan zbog toga sto je nagrada u slucaju uspeha ogromna. Odnos izmedju ta dva parametra je apsolutno bitan, npr 1% sanse da dobijete $1 milijardu je mnogo vredniji od $1 milion u kesu :)

Nasi clijevi u ovom momentu su da pokazemo da je moguce napraviti SKALABILNU platformu koja moze uspesno da podrzi jednu od najbitnijih aktivosti na Internetu - pretrazivanje. Skalabilnost je apsolutno najbitnija posto npr. sistemi kao Skype imaju fantastican broj masina (10M+) koje ucestvoju s tim sto je problem koji resavaju (VOIP) ni izbliza nije toliko zahtevan kao pretrazivanje. Drugim recima ukoliko pokazete da je moguce napraviti takvu plaformu koja ima ogroman potencijal, onda broj korisnika postaje problem koji je veoma bitan ali je definisan primarno troskom, tj koliko vremena/truda/znanja/para/vestine vam treba da dostignete kriticnu masu.

Inace Skype je odlican primer, posto su investitori isti :)

Druga bitna poenta je da se sve vise siri u javnosti svest da je tzv "user attention data" npr. istorija vasih pretraga i klikova koju cuvaju pretrazivaci veoma bitna i moze da bude osnova za veliko poboljsanje kvaliteta. Nas pristup je da otvoreno kazemo svima da su ti podaci bitni i zasto su bitni (za rankiranje) i da korisnici imaju kontrolu sta zelite da se deli a sta ne , za razliku od sadasnje industrije gde tu opciju nemate - oni cuvaju vase podatke koliko se njima svidja. Ogroman broj ljudi ne zna npr da Google Toolbar salje ne samo istoriju pretraga na Google nego i sve druge klikove na Google servere.

Open source je apsolutno jedna od opcija koje razmatramo, narocito za neke delove sistema, npr. interface za privatnost, s druge stvari kao sto je rankiranje ne mogu da budu open source zbog mogucnosti za manipulacijom algoritma.

Privatnost na Internetu postaje sve bitnija i bitnija, npr. ima nekoliko predloga zakona u USA i EU za regulaciju tog domena - nas pristup je otvorenost gde kazemo zasto i kako se koriste te informacije, za rankiranje, i samo pod uslovom da se korisnici slazu sa time.

U svakom slucaju trenutne kontrole za privatnost su tek na pocetku i jedan od ciljeva ove kampanje je upravo da ih poboljsamo na osnovu interakcije sa korisnicima.

U vezi jednog od komentara u vezi razvoja u Srbiji, mogu da potvrdim svima da to nije nikakav problem, ustvari naprotiv :), u razgovorima sa tehnickim ekspertima sa Stanforda, Yahoo, Google, Kontiki, Metaweb, Ask, Napster itd oni su vrlo impresionirani da se neko upusta u ovakav projekat.

Поздрав Боро, и хвала што си одвојио време да нам се обратиш поводом Светске премијере тестирања претраживача Едгиос. Пошто се сам buzz одиграо виртуелно на српском језику, допринећу тако што ћу користити ћирилицу и поштовати правопис у мери у којој га се сећам. Овде xippi, и ја сам субверзивни елемент коме су закључали "Да ли сам кретен што сам купио Apple (http://www.devprotalk.com/showthread.php?t=3713)?", на коме је иначе планирао да истресе све што мисли о данашњем данашњем маркетинг пилићарењу и глобалној економији

Прво сам мислио да на твој пост одговорим цитирајући га део по део, али је он у тој мери погрешан да као такав заслужује да остане као целина. Мене јако радује чињеница да се сам софтвер развија у Србији и да те Силиконске инвестиције само што нису, те ми је крајње непријатно да те обавестим да скалабилне платформе способне за претраживање већ постоје :) Што се саме приче о новцу тиче, такво коцкарско инвестирање нас је и довело у ова глобална говна у којима се налазимо

Шалу на страну, мени није јасно како на овај начин можеш да се развијаш брже од било које компаније која купује сервере на кило? Колико корисника мора да подели 1 гигабајт да би се направио индекс чија би претрага имала икакву релевантност? Како ћете да скалирате мануелно одржавање црне листе? Како да спречим комшију да ме стави на црну листу? Што се саме приватности тиче, да не понављам аспект крајњег корисника, зар не мислите да су сви ти сајтови подесили свој robots.txt управо да не би били индексирани?

Са друге стране погледај против чега се бориш, рецимо један Google који има агресивног бота који ровари тражећи линкове, браузерски додатак који прати сваки корисников клик ( ;) - хех, увек ме претекну ) и гомилу интернета у кешу.

Мени овде доста ствари једноставно није јасно и јако сам импресиониран да се неко упушта у овакав пројекат :1050:

Свако добро

ikabiljo
14. 10. 2008., 10:51
Hardverski zahtevi

Procesor: klasa Pentium 4 ili noviji
RAM memorija: minimum: 512 MB, optimalno: 1GB ili više
Disk: minimum 1 GB slobodnog prostora na disku
Internet: FLAT Internet konkecija brzine 256 Kbps ili više


Molim? :1041:

Ovo se odnosi na zahteve koji su potrebni da edgios ne bi ometao vas rad. On sam naravno zahteva mnogo manje. :) To se prvenstveno odnosi na ram (posto edgios moze da uzme 150 mb rama - ili vise ako mu naravno date), flat je potreban, jer edgios stalno trosi po malo protoka (koliko mu dozvolite), tako da to kada se sabere na dnevnom nivou nije zanemarljivo (u odnosu na mesecne limite koje provajderi daju ako niste flat), a opet ne opterecuje vam konekciju. Ako nemate flat, ipak mozete koristiti edgios, ali sa ukljucenom opcijom "force limited mode".

LiquidBrain
14. 10. 2008., 13:29
Open source je apsolutno jedna od opcija koje razmatramo, narocito za neke delove sistema, npr. interface za privatnost, s druge stvari kao sto je rankiranje ne mogu da budu open source zbog mogucnosti za manipulacijom algoritma.


Mogucnost manipulacijom algoritma?!? Ako neko to bude hteo da uradi jednostavno ce da dekompajlira java klase koje ste pokusali da sakrijete, ali na zalost neuspeshno...

Ima ljudi koji su obrnuli mnogo kompleksnije algoritme, i probili jace sisteme zastite od uzjebanog java kompajliranja...

mileusna
14. 10. 2008., 14:20
Што се саме приватности тиче, да не понављам аспект крајњег корисника, зар не мислите да су сви ти сајтови подесили свој robots.txt управо да не би били индексирани?

Ovo stoji. Mislim da je njihova pogrešna premisa iz prethodnih postova da je neki sajt blokirao Googlebot ili Vast_bot u robots.txt zato što se plaši velikog bandwidtha ili opterećenja servera ili neke treće više sile. Ali ja pre verujem da ovakvi sajtovi zapravo ne žele da ih indeksira niti jedan bot jer im se tako može i žele lojalne korisnike koji će namenski dolaziti na njihov sajt direktno a ne preko Googla. Ništa osim dobre volje i pravila lepog ponašanje ne sprečava ni Google ni Yahoo da ne poštuju robots.txt pravila.

caboom
14. 10. 2008., 15:10
sprecavaju tuzbe i copyright :) isti problem je i sa ranije pomenutim craigslist-om ili autotrader-om - cak i sa mestimicno-distribuiranim, ili potpuno distribuiranim index-om problem je pravno gledano slican i dovoljno iscrpljujuc za male kompanije da bi ignorisale zabrane ili se pravile lude, a korist od samog posedovanja content-a se malo dezintegrisala.

Dragi Tata
14. 10. 2008., 17:22
Ako neko to bude hteo da uradi jednostavno ce da dekompajlira java klase

Nisam baš čitao svaku poruku u ovoj temi ali ne sećam se da je neko pomenuo Javu. Mislim da instaliranje Java softvera na korisničke mašine nije najsjajnija ideja - posebno ako su u pitanju "add-on" aplikacije.

LiquidBrain
14. 10. 2008., 17:48
Ceo projekat je pisan u javi...

Eniac
14. 10. 2008., 17:56
Nisam baš čitao svaku poruku u ovoj temi ali ne sećam se da je neko pomenuo Javu. Mislim da instaliranje Java softvera na korisničke mašine nije najsjajnija ideja - posebno ako su u pitanju "add-on" aplikacije.

dobro ovo se svodi sad na prednosti i mane Jave :) svi je skoro imaju instaliranu, ali recimo da time sto izaberete Javu pucate na korisnike sa malo jachim racunarima jer onda doslovce jede memoriju...

Dragi Tata
14. 10. 2008., 18:14
dobro ovo se svodi sad na prednosti i mane Jave :) svi je skoro imaju instaliranu, ali recimo da time sto izaberete Javu pucate na korisnike sa malo jachim racunarima jer onda doslovce jede memoriju...


U stvari mislim da vrlo mali broj desktop korisnika ima instaliranu Javu (ja je sigurno nemam ni na jednoj mašini) a i oni koji je imaju instaliranu imaju različite verzije.

Međutim, glavni problem je što Java (i ostali GC jezici, da ne bude da sam nešto posebno protiv Jave) jede memoriju kao luda što je čini vrlo lošim "građaninom desktopa". Ako je glavna aplikacija na kojoj radiš u datom trenutku pisana u Javi (npr Eclipse) đene-đene, ali za servis koji treba da bude što je moguće više neprimetan, Java je jako loš izbor.

Eniac
14. 10. 2008., 19:11
U stvari mislim da vrlo mali broj desktop korisnika ima instaliranu Javu (ja je sigurno nemam ni na jednoj mašini) a i oni koji je imaju instaliranu imaju različite verzije.

Međutim, glavni problem je što Java (i ostali GC jezici, da ne bude da sam nešto posebno protiv Jave) jede memoriju kao luda što je čini vrlo lošim "građaninom desktopa". Ako je glavna aplikacija na kojoj radiš u datom trenutku pisana u Javi (npr Eclipse) đene-đene, ali za servis koji treba da bude što je moguće više neprimetan, Java je jako loš izbor.

Java Support
Yes 89.15%

Ovo su korisnici Furke, a za ovo su mahom krivi chat klijenti poput pricaonice na krstarici koja zahteva Javu, dakle Java nije toliko nezastupljena tehnologija koliko ljudi nisu svesni cinjenice da je imaju na racunaru :D

Ali slazem se sa tobom da Java mozda nije najbolje resenje za ovako nesto, em je ona zahtevna em sami zahvtevi za edgios (1gb prostora, 512 ram) se mogu porediti sa zahtevima za neku relativno noviju igricu :) Kao logicno postavlja se pitanje, da li cu i zbog browsera morati da kupujem jachi rachunar XD

bora2008
14. 10. 2008., 21:13
Поздрав Боро, и хвала што си одвојио време да нам се обратиш поводом Светске премијере тестирања претраживача Едгиос. Пошто се сам buzz одиграо виртуелно на српском језику, допринећу тако што ћу користити ћирилицу и поштовати правопис у мери у којој га се сећам. Овде xippi, и ја сам субверзивни елемент коме су закључали "Да ли сам кретен што сам купио Apple (http://www.devprotalk.com/showthread.php?t=3713)?", на коме је иначе планирао да истресе све што мисли о данашњем данашњем маркетинг пилићарењу и глобалној економији

Прво сам мислио да на твој пост одговорим цитирајући га део по део, али је он у тој мери погрешан да као такав заслужује да остане као целина. Мене јако радује чињеница да се сам софтвер развија у Србији и да те Силиконске инвестиције само што нису, те ми је крајње непријатно да те обавестим да скалабилне платформе способне за претраживање већ постоје :) Што се саме приче о новцу тиче, такво коцкарско инвестирање нас је и довело у ова глобална говна у којима се налазимо

Шалу на страну, мени није јасно како на овај начин можеш да се развијаш брже од било које компаније која купује сервере на кило? Колико корисника мора да подели 1 гигабајт да би се направио индекс чија би претрага имала икакву релевантност? Како ћете да скалирате мануелно одржавање црне листе? Како да спречим комшију да ме стави на црну листу? Што се саме приватности тиче, да не понављам аспект крајњег корисника, зар не мислите да су сви ти сајтови подесили свој robots.txt управо да не би били индексирани?

Са друге стране погледај против чега се бориш, рецимо један Google који има агресивног бота који ровари тражећи линкове, браузерски додатак који прати сваки корисников клик ( ;) - хех, увек ме претекну ) и гомилу интернета у кешу.

Мени овде доста ствари једноставно није јасно и јако сам импресиониран да се неко упушта у овакав пројекат :1050:

Свако добро

Hvala na interesantnim komentarima. Skalabilnih platformi naravno ima, s tim sto su sve centralizovane . Nije mnogo poznato da u svetu postoji vrlo mali broj kompanija koji znaju i mogu da naprave indeks svetske klase ( > 1 milijarde linkova). To su Google, Yahoo, Microsoft, Ask, Cuil i Gigablast (u USA) kao i Baidu (Kina) i Yandex (Rusija). Ta lista je veoma mala i elitna, prakticno svi (osim Cuil i Gigablast) su veoma uspesne kompanije sa vrednoscu na trzistu vise milijardi dolara pojedinacno. Drugim recima, lepo je ukljuciti se u taj klub :)

Takodje ukoliko pogledamo konkurenciju na gornjoj listi, Yahoo je u veoma losem polozaju, a njihov pristup je od pocetka bio suboptimalan, MSN pokusava ali nikako da krene, Ask manje vise izlazi iz igre tako da se konkurencija smanjuje tj. nagrada u slucaju uspeha povecava.Baidu i Yandex su kompanije u usponu koje jasno pokazuju vrednost uspesnog ucestvovanja u ovj igri.

Polje u kojem smo mi (i Faroo, definitivno) su distribuisani pretrazivaci, i mi (i investitori) milsimo da je tu potencijal ogroman kao i sansa za ulazak u gornji specijalni klub :)

Inace u vezi riskantnih invsticija, enormni sadasnji problemi na svetskim finansijskim trzistima su primarno uzrokovani ne riskantnim investicijama (rizik uvek postoji u bilo kakvoj investiciji) nego kladjenjem na dug ("leverage") tj pozajmljivanje para za kladjenje tako da su gubici u slucaju neuspeha 20, 50 pa cak i 100 puta veci od uloga. U VC investicijama dug ne postoji, ukoliko kompanija ne uspe sve sto je izgubljeno je ta investicija i nista vise. Time naravno investitori nece biti odusevljeni, ali to je deo njihovog biznisa i naseg ugovora sa njima.

U vezi kupovine servera na kilo (tonu :) ) mislim da je najbolji primer Skype, oni su dostigli kriticnu masu prakticno bez ikakvih investicija u servere. To su dostigli neverovatno brzo (produkat lansiran leto 2003, prodat eBay za $2.6 mlrd jesen 2005) i to je mislim odlicna ilustracija prednosti distribuisanih pristupa.

Naravno, druga veoma velika prednost je vrednost korisnika u procesu rankiranja. Tu cinjenicu search industrija odlicno zna, to vam mogu potvrditi iz njihovih usta :) (off the record)

Manuelno skaliranje jeste uvek problem, ali nas pristup se zasniva na wisdom-of-crowds tj zajednickom menadzovanju tih aspekta. Inace, i Google i ostali imaju dosta stvari koje su manuelne, ali o kojime ne pricaju iz ociglednih razloga, narocito u oblasti rankiranja, spama kao i svezine rezultata.

Sto se tice razloga zasto se stvari stavljaju u robots.txt, ne mislimo da su svi stavili robots.tx samo iz jednog razloga, ima ih gomila. U svakom slucaju deljenje informacija o necemu sto ste videli je apsolutno vase pravo, npr. da li iko moze da vam zabrani da kazete nekome recimo pismom, ili telefonom, sta ste videli interesantno na Internetu? Ocigledno ne, zasto da vam zabrani da tu informaciju podelite kompjuterom. To spada pod tzv "fair use" doktrinu u Americi. Naravno postavlja se interesantno pitanje komercijalnog koriscebja toga, sto jeste druga stvar, medjutim tu je upravo Google onaj koji koristi ceo Internet u njihove komercijalne svrhe - ove cinjenice je veoma svesna svetska izdavacka industrija i pokusavaju godinama da urade nesto po tom pitanju , do sada neuspesno.

U vezi riskantnih stvari, ono sto je interesantno (meni) je da je najgora stvar sto moze da vam se desi da projekat ne uspe, s tim sto cak i u tom slucaju cete nauciti mnogo stvari, raditi na necemu sto vam se svidja i u sta verujete, kontrolisati svoju sudbinu. Naravno u slucaju uspeha, prica je potpuno druga. Poenta, sa moje tacke gledista, je da nemate sta da izgubite.

Pozdrav,

Bora

Lalaland
14. 10. 2008., 21:48
Boro, hvala na tvojim dosadasnjim odgovorima. Najpre da razjasnim: moja pitanja su sa stanovista obicnog korisnika tj. predstavnika te buduce kriticne mase od koje na kraju sve zavisi - dakle, marketinga. Vecina njih, naravno, nece biti sa Stanforda ali, pretpostavljam da cete na kraju imati sav moguc tehnicko-pravni large & fine print. Ono sto korisnike najpre zanima su odgovori na zdravorazumska pitanja o samom konceptu, o ideji iza projekta, radije nego o detaljima.

Koliko sam shvatila, a vi me molim vas ispravite ako negde gresim, vi polazite od pretpostavke da su klasicne crawler/bot/whatever-based search engines nepouzdane zato sto poseduju absolutnu kontrolu i monopol, kako nad obimom i vrstom indexa, tako i nad rezultatima pretrage i prikupljenim podacima.

Vas p2p nacin pretrage direktno povezuje korisnike kroz volontersku mrezu zaobilazeci informacione centre. Jednom recju, demokratizacija search-a. Pri tom je svaki korisnik i dalje prikljucen na velike indexe i odatle kopa po katalogu po svom nahodjenju. Uspeh projekta zavisi od broja ucesnika ali i od kolicine i vrste materijala koju ovi “data miners” iskopaju. Ako znamo da “people go where bots don’t”, realno je kao rezultat ocekivati sveobuhvatniju i dublju pretragu.

Prikupljeni podaci nece biti smesteni po centrima vec ce biti rasuti po nekoj vrsti “self-generating” mreze. A net around a net (wrap-around?), if you wish. Kad su u pitanju vlasnistvo nad i pristup informacijama, korisnici imaju opciju filtriranja podataka pre pustanja u mrezu cime se dobija veca kontrola i bolja zastita licnih podataka. Sa druge strane, content providers prirodno nastoje da sacuvaju tajnost podataka. Eliminacijom search engine middle man-a, povecava se privatnost. Prikljucenje na mrezu zahteva instaliranje aplikacije koja je besplatna.

Evo neliko pitanja:

1. Da li mene kao korisnika obavezuje privacy policy u odnosu na search engines i kompanije sa kojima saradjujem? Ako ja sa svojih ekspedicija donesem i dalje pustim u promet neciji private and protected information, da li mogu da me tuze zbog toga?
2. Koji je ovde business model? Kako se planira komercijalizacija podataka prikupljenih od strane samih korisnika i sta korisnik dobija zauzvrat? Sponsored search profit sharing? Social networking utilities? Da li cemo zauzvrat imati Nick and Norah’s Infinite Search Lists? Any other benefits?
3. Koje su mogucnosti zloupotrebe? Tu ne mislim samo na security leaks nego i na manipulaciju rezultata pretrage. Da li cemo imati worldwide data mining sweatshops?

zira
14. 10. 2008., 22:48
Boro, hvala na pojasnjenjima i iskustvima.

Imam jos dva pitanja, oba o pravilima indeksiranja:

1. Ako je jedna od ideja da se (kako je navedeno gore) otvori mogucnost indeksiranja stranica koje inace nisu indeksirane (popularni oglasnici npr.) koji to ne dozvoljavaju standardnim metodama, zar nije realno da cete ubrzo dobiti pismo od njihovih advokata da ih stavite na globalnu blacklistu i da ih vise ne indeksirate?

2. Sto se tice robots.txt, jasno je da ima onih sto ih ne postuju. Da li vas slucaj ipak nije toliko drugaciji od ostalih ukoliko se stvari gledaju iz drugog ugla (ukoliko sam ja razumio pojasnjenja sa prethodnih strana?): Posmatrajmo racunar sa Edgios-om koji indeksira neku stranu (dakle, ne originalni posjetilac, vec racunar u mrezi koji ce stranu ubaciti u indeks) i njegovu aktivnost. To je u sustini softver koji programirano obilazi zadatu/e adresu/e u cilju indeksiranja. Pitanje je: uopsteno gledano, zasto je to drugacije o botova drugih pretrazivaca i zasto za njega ne bi trebala da veze pravila kao i za prave botove?

Hvala unaprijed i puno uspjeha :)

misk0
15. 10. 2008., 01:13
Imam jos dva pitanja, oba o pravilima indeksiranja:


Ne odgovaram u Borino ime, ali kontam da je to jos neka 'siva zona' buduci da primjer sa google-om itekako ooslikava trenutnu situaciju, kad novinske kuce pokusavaju da zabrane da google indeksira njihove clanke i publikuje ih ali mu ipak ne mogu nista tj jos nisu dobili zabranu na to. Tako da mislim da jos nema pravne osnove da im to neko moze zabraniti.

robi-bobi
15. 10. 2008., 13:56
^ problem sa robots.txt se resava lako
stavite na vashem sajtu info kako da sajt zabrani vasem botu (pardon, softwaru) da siri info o tom sajtu

kao: posto smo mi razliciti, mi ne citamo standardne direktive u robots.txt
ali, posto smo fini i kulturni, evo kako mozete da nam ukazete sta da radimo s vasim sadrzajem (i onda ide red koji trebaju dodati u robots.txt)

ovo bi bilo neko srednje resenje
licno mislim da nepostovanje robots.txt-a nije lepo, iako ima tu i toga da ovo nije klasicni 'dodatni' bot

inace, interesantna ideja, ima dosta stvari koje treba izjasniti - privacy, kako cete privuci kriticnu masu itd
u svakom slucaju ocekujem da ce se indeks puniti segment po segment
recimo, ako ovo pocnu da koriste IT people onda ce takvi sajtov biti dobro indeksirani te ce za tu oblast edgios biti relevantan.

praticu s interesovanjem razvoj

srecno

Dejan Bizinger
15. 10. 2008., 18:05
Zanimljivo je krenuti na ovo polje, mogucnosti su zaista velike, slazem se, ali i jos veca ocekivanja korisnika koje necim boljim treba navesti da ne koriste pretrazivac koji vec koriste.

Inace Skype je odlican primer, posto su investitori isti

Druga bitna poenta je da se sve vise siri u javnosti svest da je tzv "user attention data" npr. istorija vasih pretraga i klikova koju cuvaju pretrazivaci veoma bitna i moze da bude osnova za veliko poboljsanje kvaliteta. Nas pristup je da otvoreno kazemo svima da su ti podaci bitni i zasto su bitni (za rankiranje) i da korisnici imaju kontrolu sta zelite da se deli a sta ne , za razliku od sadasnje industrije gde tu opciju nemate - oni cuvaju vase podatke koliko se njima svidja. Ogroman broj ljudi ne zna npr da Google Toolbar salje ne samo istoriju pretraga na Google nego i sve druge klikove na Google servere.

Sto se tice price o dostizanju kriticne mase i poredjenja Skypea i Edgiosa mislim da se to bas i ne moze porediti. Skype je skolski primer za viralni efekat jer da bi se Skype koristio mora da postoje bar dve strane a ako zelite da ispunite svoju zelju da pricate sa nekim ko nema Skype ili drugi Voip vi cete mu to preporuciti da instalira. Skype ispunjava potrebu onih koji zele besplatne/jeftine long distance razgovore. Koju potrebu ispunjava ovaj sajt? Bolja pretraga? Mislim da je 99% korisnika itekako zadovoljna sa onim sto dobija preko Googlea a Google je stalno bolji i bolji. I ovde isto ima vise korisnika ali ovde trenutno ne vidim uopste takvu mogucnost za viralni efekat. A iako svakodnevno koristim Skype kao jos 200 miliona drugih korisnika, nisam siguran da eBay danas smatra da im je to najpametnija kupovina.

Ne bih se bas slozio "da se sve vise siri u javnosti svest da je tzv "user attention data" npr. istorija vasih pretraga i klikova koju cuvaju pretrazivaci veoma bitna i moze da bude osnova za veliko poboljsanje kvaliteta." Pre bih rekao da su pretrazivacke kompanije sve vise na udaru zbog tih istih istorija pretraga kao i kompanije koje se bave behaviour advertajzingom. Slazem se da to moze da bude korisno za korisnike da dobiju relevatnije rezultate pretrage nego sada ali ko im moze garantovati da informacije o njihovim aktivnostima nece biti iskoriscnei u druge svrhe. Mnoge stvari kada zele da se uvedu se predstavljaju u smislu "to je u najboljem interesu korisnika", ali znate i sami kako ide ona izreka gde se spominje poplocani put i najbolje namere. To je isto kao kada bi se promovisalo u svetu da je RFID cipovanje ljudi jako dobro i u njihovom najboljem interesu zbog njihove bezbednosti.

Takodje, problem je u tome sto je potrebno instalirati softver da bi se vrsila pretraga. Mislim da su idealna ciljna grupa za ovakve pretrazivace korisnici koji vole da koriste i druge P2P mreze ali iako sam na Internetu vise od 10 godina i nikad nisam koristio njednu P2P mrezu za skidanje programa, takva stvar je ok za razmenu fajlova ali mislim da instaliranje softvera zbog pretrage i insistiranje na Javi nije bas najbolje za osobe koje bas nisu web savvy. Ne treba se bas pravity hype oko ovoga, i Cuil je predstavljen kao the next Google killer i pre nego sto je lansiran samo zato sto su ga osnovali XGooglersi pa nisam siguran da je praksa pokazala to. Isti slucaj i sa Mahalom.

Sustina: Da li mislim da ce ovaj sajt biti the next big thing? Ne mislim. Da li mislim da ce se vremenom ovaj sajt zbog necega dobro prodati? Vrlo moguce. Ali kada kazem "dobro prodati" ne mislim na cifre koje se spominju za Yandex i druge iz heavyweight kategorije.

Btw. ime za sajt je moglo biti znatno bolje od ovog, barem je neko postojece ime moglo biti otkupljeno kada vec postoje investicije. Ovako jako lici na propali projekat Michael Arringtona Edgeio (http://www.edgeio.com).

bluesman
15. 10. 2008., 18:56
Slazem se sa Bizingerom, plasim se da ovo nikada nece postati "everyday app", ko god hoce da pretrazuje verovatno ce uvek koristiti google ili yahoo (tradicionalne search engine), a bojim se da ce edgios i slicni alternativni search engine ostati samo za slucajeve kada pozelis 'malo da se igras". Nije pretraga samo "da li postoji" vec i koliko je relevantno, a ako sam ja dobro shvatio ceo koncept, relevantnost pronadjenih podataka preko edgios jako zavisi od subjektivnih elemenata.

Veliki problem je i to instaliranje, mora odmah da se oduzme deo populacije koji to ne zna da uradi i deo koji to ne zeli. Eto odmah velikog problema sa subejtivnoscu. Zar nije Alexa imao isti problem iz istih razloga (alexa toolbar).

Da sam ja na vasem mestu, verovatno mi ne bih palo na pamet da se promovisem kao konkurencija tradicionalnim pretrazivacima, pre bih isao na nesto geek-ish.

Lalaland
15. 10. 2008., 20:28
Meni licno najvise smeta sto je ceo koncept, ovako kako je dosad predstavljen, u sustini parazitski (loaded word, I know...): zivi na tudjem hardware-u, hrani se vec postojecim indexom koji mu donose pcele radilice a da za uzvrat ne dobijaju nista (osim mozda liability). Tough sell. Al' to smo sad vec svi rekli, da ne davim dalje.

Eniac
15. 10. 2008., 21:14
Slazem se sa Bizingerom, plasim se da ovo nikada nece postati "everyday app", ko god hoce da pretrazuje verovatno ce uvek koristiti google ili yahoo (tradicionalne search engine), a bojim se da ce edgios i slicni alternativni search engine ostati samo za slucajeve kada pozelis 'malo da se igras". Nije pretraga samo "da li postoji" vec i koliko je relevantno, a ako sam ja dobro shvatio ceo koncept, relevantnost pronadjenih podataka preko edgios jako zavisi od subjektivnih elemenata.

Veliki problem je i to instaliranje, mora odmah da se oduzme deo populacije koji to ne zna da uradi i deo koji to ne zeli. Eto odmah velikog problema sa subejtivnoscu. Zar nije Alexa imao isti problem iz istih razloga (alexa toolbar).

Da sam ja na vasem mestu, verovatno mi ne bih palo na pamet da se promovisem kao konkurencija tradicionalnim pretrazivacima, pre bih isao na nesto geek-ish.

osim ako ne ponudi neki added value u smislu nelegalnog pristupa odredjenim sadrzajima. Da li bi iko koristio p2p programe da nije u pitanju lak pristup zabranjenom vocu :) a kada nudite tako nesto onda i imate lep buzz u narodu, ljudi vole besplatne stvari i o tome ce pricati :)

ne navodim vas da krenete da valjate accounte za placeni sadrzaj ali kontam da je tako nesto neophodno za siru populaciju...

Miloje Sekulic
15. 10. 2008., 22:06
a da za uzvrat ne dobijaju nista

Možda jednog dana (http://ssl.edgios.com/sr/benefits.html), kad bude dovoljno usera

LiquidBrain
15. 10. 2008., 22:16
Brzu i pouzdanu mrežu - Uvek brzo pruža rezultate čak i pod opterećenjem većeg broja istovremenih pretraga


Ovo je tako veliko sra...

Lalaland
15. 10. 2008., 22:19
Možda jednog dana (http://ssl.edgios.com/sr/benefits.html), kad bude dovoljno usera

Mislis, bolje golub na grani nego vrabac u ruci :)

Eniac
15. 10. 2008., 22:24
Mislis, bolje golub na grani nego vrabac u ruci :)

ili, sto bi sinisa rekao, bolje vrabac u ruci nego minus na deviznom racunu :D

Lalaland
15. 10. 2008., 22:31
ili, sto bi sinisa rekao, bolje vrabac u ruci nego minus na deviznom racunu :D



:D e sad me vec grize savest zbog ovolikog negativiteta tj. ne zelim da komsiji crkne krava (kad smo vec kod zivotinjskog sveta). Daj boze da svi pojedemo sopstvene reci i da naprave tih gazilion $$

Eniac
15. 10. 2008., 22:37
:D e sad me vec grize savest zbog ovolikog negativiteta tj. ne zelim da komsiji crkne krava (kad smo vec kod zivotinjskog sveta). Daj boze da svi pojedemo sopstvene reci i da naprave tih gazilion $$

nismo negativni, vec kriticni, a feedback je i razlog otvaranja ovakve teme. Mozda oni nisu ocekivali ovoliko kritike, ali cinjenica je da je ovo forum na kome se okupljaju ljudi iz struke koji ti mogu dati kvalitetniji feedback nego komsinica iz komsiluka kojoj su svi vasi projekti poput vas zlatni.

Jasno mi je donekle zasto se ulaze novac u ovaj projekat, i ako mi licno mozda ne dobijamo toliko. Tekst koji sam na nekoj od tema danas linkovao o kolicini servera i troskovima sa kojima se suocavaju klasicni pretrazivaci nas upucuje na to da sistemi pretrage postaju sve manje finansijski odrzivi i ovaj pokusaj decentralizacije cuvanja podataka pretrage predstavlja potencijalno resenje problema. Mozda ovaj projekat nece uspeti ali ce se iz njega izvuci kvalitetni zakljuchci o tome kako pretrazivanje treba da se razvija u buducnosti da obezbedi kompanijama odrzivu i komercijalnu pricu a korisnicima ugodno, kvalitetno i brzo pretrazivanje.

:)

Peca
15. 10. 2008., 22:44
koliko ovakvih slicnih projekata ima?
http://www.google.com/search?q=distributed+search+engines
rekao bih da je bilo dosta ozbiljnih pokusaja.

proverio sam kako majestic radi.
evo kako "radi" - http://search.majestic12.co.uk/search.jhh?q=vesti
ne, niste maler, niste uboli bas kad ne radi.
on jednostavno uopste ne radi :) [probam vec dva dana]

Lalaland
16. 10. 2008., 00:38
Mozda ovaj projekat nece uspeti ali ce se iz njega izvuci kvalitetni zakljuchci



Ovo svakako. Ovakve exploratory expeditions ne kostaju puno ($1M ode dok si reko' kex) a mogu svasta da donesu, makar i u vidu unintended consequences.

Berislav Lopac
16. 10. 2008., 12:40
:D e sad me vec grize savest zbog ovolikog negativiteta tj. ne zelim da komsiji crkne krava (kad smo vec kod zivotinjskog sveta). Daj boze da svi pojedemo sopstvene reci i da naprave tih gazilion $$Kod nas (u širem smislu) ljudi vole biti negativistički i pesimistično nastojeni, jer to donosi emocionalnu utjehu uz malo truda i uz nisku cijenu. Ako popljuju druge ljudi se odmah bolje osjećaju; a pritom, ako se ispostavi da su bili u pravu imaju dodatnu moralnu satisfakciju. S druge strane, ako se ispostavi da su bili u krivu i popljuvani projekt uspije, uvijek se mogu jeftino izvući na foru "što se buniš, pa super ti je".

bluesman
16. 10. 2008., 13:17
Znaš kako, ako neko ove (velikom vecinom dobronamerne) komentare shvati kao "da komšiji crkne krava", onda mu je vreme za jedan duži odmor (bar godinu dana). Ok, slazem se da nekima nedostaje par casova civilizovane komunikacije pa su prilicno grubi, ali ne verujem da je bilo ko komentarisao zato sto zeli neuspeh.

LiquidBrain
16. 10. 2008., 14:08
Ja bih voleo da kada pokrenem nesto da dobijem realne komentare na celu pricu. Znaci udri, pa posle toga vidimo kako da ispravimo sve to...

Kritika je super stvar, naravno ako znash da prihvatish kritiku. S'druge strane ako me neko kritikuje ne mislim da hoce da propadnem...

Dejan Bizinger
16. 10. 2008., 15:29
I ja mislim da su sve ove (ili najveci broj) izrecene kritike i pozitivne i negativne napisane u najboljoj nameri.

Cinjenica je da ovaj ili bilo koji projekat nece uspeti ili propasti zato sto su "tamo neki clanovi nekog foruma u Srbiji" rekli da je taj projekat super ili bezveze. Ali je cinjenica da moze da bude losiji ako te kritike ne budu napisane i/ili ne budu usvojene ili da bude bolji ako bude ona druga varijanta.

U pravom projektnom timu, cesto osobe koje predlazu ideje od 10 predlozenih dobiju negativan odgovor za 9 a jedna 1 bude super i bude usvojena. Ali bas zbog te 1 ideje treba stalno predlagati nove ideje. Pricam iz iskustva. VC biznis je slican. Od 10 investicija, mozda 4 budu relativno uspesne a 1 jako uspesna.

Lalaland
16. 10. 2008., 20:05
Ovo bi sad bila dobra nova tema: Direktna online komunikacija, prednosti i zamke. Cinjenica je, to sto kaze Berislav, da je generalno nas mentalitet naysayer-ski ali i da ljudi cesto kritiku shvataju kao licni napad i zelju da im crkne ta nesrecna proverbijalna krava. To se sve onda online podigne na kvadrat pa imamo gomilu nesporazuma sto za uzvrat dovodi (cesto preventivno) do isto tako velike gomile dodatnog objasnjavanja, ogradjivanja, "emotikonizacije", itd. Ko' sto Mesa Selimovic kaze: tako smo se narazgovarali, ko motkama da smo se tukli!

zira
17. 10. 2008., 11:27
Sama cinjenica da je Edgios izazvao ovoliko postova u temi je dokaz da je rijec o veoma zanimljivom projektu. Realno, niko od nas ne moze znati kako ce Edgios izgledati za godinu-dvije, cak ni da li ce prezivjeti toliko, ali da je zanimljiv - to jeste.

Inace, meni ne izgleda da je diskusija bila negativna, vec realna, sa ukazivanjem na neke stvarne probleme i neka pitanja koja ce svakako morati biti odgovorena. Ukoliko problemi ostanu isti kao sada, ne vjerujem da ce diskusija na bilo kom svjetskom sajtu ici u drugom smjeru. Doduse, problem jeste u pisanoj formi foruma gdje stvari mogu izgledati drugacije nego kada ih nekome kazete u lice, ali dobro, ovdje smo svi u online svijetu i za pretpostaviti je da umijemo da prepoznamo dobru namjeru cak i ako je naizgled ostro napisana.

U svakom slucaju, pohvalno je sto je jedan globalni projekat imao premijeru u Srbiji.

Ben
17. 10. 2008., 21:09
Pratio sam diskusije sa velikom paznjom koliko mi je to vreme dozvoljavalo. Izvinjavam se ako nisam bas uvek na vreme stigao da odgovorim. S obzirom da ovaj forum okuplja krem srpskih IT profesionalaca impresioniran sam cinjenicom da je za samo nekoliko dana koliko je ova tema aktuelna, privukla paznju ogromnog broja posetilaca.

Nismo trazili nikakav popust jer se radi o domacoj tehnologiji, naprotiv. Hvala svima primedbama, mislim da su bile konstruktivne i bile su nam veoma korisne. Sigurno cemo posvetiti maximalnu paznju da vecinu i implementiramo.

Rad na razvoju cemo jos intenzivnije nastaviti. Tim veoma mladih i izuzetno talentovanih developera je maksimalno angazovan na ovom poslu. Edgios se inace automatski updejtuje i sa svakom novom verzijom bice bolji, brzi i pouzdaniji i naravno, upotrebljiviji za sve veci broj korisnika. Edgios index je za manje od nedelju dana koliko je u javnoj upotrebi porastao za gotovo 50%. Naravno, pocetna velicina indexa sa kojom smo krenuli je bila mala tako da je ovakav skok ocekivan.

Sa nase strane potrudicemo se da zadrzimo vasu paznju tako sto ce Edgios biti sve bolji, a oni koji odluce da ga probaju moci da se uvere u to iz dana u dan.

Hvala na saradnji i razumevanju.

Ben.