DevProTalk - Realizacija pretrage

DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)

- Planiranje i usability (http://www.devprotalk.com/forumdisplay.php?f=35)

- - Realizacija pretrage (http://www.devprotalk.com/showthread.php?t=1124)

Ilija Studen

13. 06. 2006. 08:37

Realizacija pretrage

Kakva su vaša iskustva sa izradom pretrage? Q&D (quick and drity ;) ) rešenja kao LIKE mogu da odrade posao za neke manje stvar, međutim meni treba za nešto malo obimnije. Prvo, ima dosta tabela koje se pretražuju (10 - 15 sa bar dva polja po tabelu koja se pretražuju). Uz to će najverovatnije u neko dogledno vreme biti i zahtev da se pretražuju i attachovani fajlovi.

Kako stvari stoje, najverovatnije ću praviti neki index, ali tu opet ima problem sa veličinom jer indeksi imaju ružnu naviku da samo rastu.

No, koja su vaša iskustva? Pros and cons? Neki zanimljivi linkovi?

jablan

13. 06. 2006. 08:54

Naš sistem ima posebne tabele (sa sadržajem koji se pretražuje) koje indeksira MSSQL-ov fulltext search, jednu za CMS objekte, drugu za fajlove. Prva sadrži i informacije o kom se objektu i kom njegovom polju radi. Tabele se pune pri izmeni nekog objekta (prva) i pri uploadovanju nekog fajla na sistem (druga).

Petar Marić

13. 06. 2006. 09:30

Jesi li čuo za Apache Lucene ili Egothor?

Inače Zend_Search iz Zend framework-a koristi upravo Lucene.

Off Topic: Ovakav problem optimizacije se narodski zove "klackalica". Ako želiš bržu pretragu moraš imati veći i kompleksniji index, a ukoliko želiš manji i jednostavniji index imaćeš sporiju pretragu.
Kada napraviš dovoljno dobro rešenje svaki dalji pokušaj optimizacije ti se svodi na "klackalicu".

Ilija Studen

13. 06. 2006. 09:39

@Jablan: Ako sam dobro razumeo, vi imate tip objekta, ID i ime polja kao PK + sadržaj samog objekta? Sviđa mi se taj pristup jer je dovoljno jednostavan, pravi razliku među tipovima objekata i omogućava da se čuvaju dodatne informacije o samim objektima (kojoj kategoriji pripada, da li je javan ili privatan itd itd).

Veličina ne predstavlja problem?

@Petar: Čuo. Postoji i PHP5 implementacija u okviru ZF projekta: Zend Search. Ono što je muka u celoj priči je što ZF nije stabilan, a i treba uložiti dosta vremena da se Zend_Search ubaci u skriptu koju koristim (ne pada mi na pamet da samo zbog toga koristim ceo ZF).

jablan

13. 06. 2006. 09:43

Citat:

Originalno napisao Petar Marić

Jesi li čuo za Lucene?

Hehe, imaju logo kao beogradska Lasta, samo ružniji. :)

Možeš li reći još nešto o ovome, npr. kako se integriše u druge platforme. Ne sumnjam da su performanse odlične, ali sam vrlo sumnjičav da se ovakvo rešenje lako može integrisati u neki veći CMS.

jablan

13. 06. 2006. 09:49

Citat:

Originalno napisao Ilija Studen

@Jablan: Ako sam dobro razumeo, vi imate tip objekta, ID i ime polja kao PK + sadržaj samog objekta? Sviđa mi se taj pristup jer je dovoljno jednostavan, pravi razliku među tipovima objekata i omogućava da se čuvaju dodatne informacije o samim objektima (kojoj kategoriji pripada, da li je javan ili privatan itd itd).

Dobro si razumeo. Dodatna polja olakšavaju "advanced" pretragu, tj. lako sužavanje po određenim kriterijumima. Npr. ID jezika je jedno od tih pomoćnih polja.

Nisam iz prve ruke upućen u probleme pri eksploataciji, ali veličina ne bi trebalo da predstavlja problem, jer te tabele čuvaju samo aktuelne verzije CMS objekata. Ono što pravi najveći DB footprint kod CMS-ova su prethodne (i obrisane) verzije objekata. Npr. desi se da korisnik jednostavno greškom negde iskopira celo podstablo objekata i posle ga obriše. Dakle, začas može da napravi megabajte đubreta u bazi. Ali to ne dotiče tabele za pretraživanje jer, kao što rekoh, one čuvaju samo aktuelne revizije objekata.

Petar Marić

13. 06. 2006. 10:05

Postoji Lucene .NET implementacija.

Što se tiče integracije u veće sisteme jedan od Google Summer of Code projekata za Django projekat je i Merquery - Text Indexing & Search Engine Abstraction Layer for Python čiji je cilj da korišćenje moćnih sistema za indeksiranje i pretragu bude jednostavno kao npr caching framework.

Ilija Studen

13. 06. 2006. 12:47

Super, rešeno :) Obožavam jednostavna rešenja (tj. rešanja koja se nakon izrade jednostavno koriste):

PHP kôd:


		
			
class SomeObject extends BaseApplicationObject {

  // ...

  protected $is_searchable = true;

  protected $searchable_columns = array('title', 'text');

  // ...

}

To je sva mudrost.

Vreme je GMT +2. Trenutno vreme je 04:24.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.