DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   SQL baze podataka - Sponzor: Baze-Podataka.net (http://www.devprotalk.com/forumdisplay.php?f=10)
-   -   relevantnost mysql full text searcha (http://www.devprotalk.com/showthread.php?t=8693)

ivanhoe 21. 04. 2010. 07:25

relevantnost mysql full text searcha
 
Pravim sistem za pretragu koju radi full-text search po vise polja, i naleteo sam na sledeci problem:

Pretraga se vrsi po poljima keywords, title i description (postoji jedan full text index za ta polja).

Recimo da imam 2 rekorda:
Kôd:

ID    TITLE                  DESCRIPTION
1    Ovo je naslov          Ovo je neki opis
2    Ovo je neki naslov      blabla

Ako neko uradi upit:
Kôd:

SELECT id, MATCH (keywords, title, description) AGAINST ('neki naslov') AS rel_kw_title
FROM data
WHERE status='published' AND MATCH (keywords, title, description) AGAINST ('neki naslov')
ORDER BY rel_kw_title DESC

dobice se da je red sa ID-jem 1 relevantniji iako on ima trazene reci odvojene. Probao sam i sa boolean searchom i onda se dobije isti relevance za oba (2 posto ima 2 matcha). Meni naravno treba da tamo gde je tacna fraza, nadje prvo nju, pa onda sve ostale.

Da li imate neku ideju kako ovo izbeci? Jedino sto 100% pomaze je da se stave navodnici oko svega, ali onda mi "Pera Peric" nece pronaci "Peric Pera" sto mi je takodje potrebno, tako da mi to nije dobro resenje.

ivanhoe 21. 04. 2010. 11:14

Smislio sam delimicno resenje da za svaki $query, upit formiram kao "$query" $query, npr:

MATCH (keywords, title, description) AGAINST ('"neki naslov" neki naslov')

sto resava deo problema. Palo mi je napamet i da radim to isto za razne kombinacije reci tipa:
'"neki naslov" "naslov neki" naslov neki'
ali cim imam vise od 2 reci to postaje besmisleno komplikovan upit..

Jel ima neko inteligentnije resenje za ovo? Mozda neki externi alat za full text search?

BraMom 21. 04. 2010. 13:20

Postoji Lucene, vredi pogledati. Probao sam dot.net port Lucene.NET, doduše samo za internu upotrebu...

bokacbl 21. 04. 2010. 13:25

Ima i Spinx
http://www.sphinxsearch.com/

nixa 21. 04. 2010. 13:33

Zend ima php port.

ivanhoe 21. 04. 2010. 18:45

cuo sam za lucene, spinx, solr, xapian, ali nikad nisam probao nista od toga, jel pomazu oni kod ovog tipa problema, da se nadju kvalitetniji rezultati ?

Meni performanse nisu toliki problem jer imam 100.000 recorda, mysql radi super sa time, bitna mi je samo sto bolja relevantnost...

srdjevic 21. 04. 2010. 20:53

Da li se isto ponasa kad imas veci broj redova u tabeli? FULLTEXT je poznat po boljci da se ne snalazi bas najbolje kad ima mali broj redova u tabeli...

LiquidBrain 21. 04. 2010. 21:08

http://www.postgresql.org/docs/8.4/s...SEARCH-RANKING

Probaj da zamenish mysql sa postgresql-om...

MorenoArdohain 21. 04. 2010. 21:54

Search ranking i sort podesavanja imas i u Sphinxu, doduse, verovatno bi morao dosta da se igras sa tim.

ivanhoe 21. 04. 2010. 21:56

@srdjevic: ima oko 100.000 recorda, nije mi problem u 50% granici, nego u nacinu na koji se racuna relevantnost, izgleda se match fraze, odnosno proximity nadjenih reci ne boduje nista posebno, sem ako se bas insistira na odredjenoj fori pomocu boolean operatora... ima i to neke logike, ali tesko cu ja to da objasnim klijentu...:)

bOkIcA 21. 04. 2010. 22:53

A da probas sa svakim poljem posebno pa ukupni score?

Kôd:

SELECT id, (MATCH (keywords) AGAINST ('neki naslov') +  MATCH (description) AGAINST ('neki naslov') + MATCH (description) AGAINST ('neki naslov')) AS score
FROM data
WHERE
    ...
ORDER BY score DESC


mileusna 22. 04. 2010. 10:16

Jedno vreme je moglo i ovako
Kôd:

SELECT id, MATCH (keywords, title, title, description) AGAINST ('neki naslov') AS
Ili u samom indekstu dva puta navedeš jedno polje i time mu daš veću težinu, mada mislim da to više ne može tako, ali nisam siguran, davno nisam radio sa fulltext indeksima. Mada to i dalje ne rešava tvoj problem relevantnosti za fraze.

ivanhoe 22. 04. 2010. 14:07

na kraju sam napravio varijantu koja napravi razne varijacije fraze:
"A B C" A B C
"A B" A B C
"B A" A B C
"B C" A B C
"C B" A B C

A gledajuci sta ljudi kucaju pokazalo se da nema potrebe varirati vise od 2 pojma, jer osim imena ljudi, korisnici obicno otkucaju frazu u pravom redosledu.

ivanhoe 29. 04. 2010. 11:14

Opet me izludjuje fulltext, pa da ne otvaram novu temu:

Kako da ga nateram da mi vrati samo rezultat koji sadrzi sve zadate reci? Deluje kao osnovna stvar, ali je neko tu glup, ili ja ili mysql...

Ako stavim AGAINST('+jedan +dva +tri' IN BOOLEAN MODE) dobicu rekorde koji sadrze sve 3 reci, ali i one koji sadrze samo jednu ili dve. Kako to izbeci?

Druga stvar: Ako stavim AGAINST('"neka fraza" +neka +fraza' IN BOOLEAN MODE) dobijam da recordi sa tacnom frazom imaju potpuno isti skor kao recordi koji samo sadrze te 2 reci razdvojene? Zar ne bi trebalo da ako matchuje tacnu frazu ima relevance score 3, jer su se matchovale i tacna fraza i pojedine reci?


Vreme je GMT +2. Trenutno vreme je 10:07.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.