DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   SQL baze podataka - Sponzor: Baze-Podataka.net (http://www.devprotalk.com/forumdisplay.php?f=10)
-   -   full-text search se chudno ponasa (http://www.devprotalk.com/showthread.php?t=4004)

ivanhoe 15. 11. 2007. 17:48

full-text search se chudno ponasa
 
mysql mi jako chudno sortira rezultate full-text searcha, kao sto se moze videti iz prilozenog:
Kôd:

SELECT a3a.ID, a3a.Title,
MATCH (a3a.Title) AGAINST ('florida car insurance') AS relevance
FROM articles3 AS a3a
WHERE
MATCH (a3a.Title) AGAINST ('florida car insurance')
LIMIT 10

+--------+----------------------------------------+-----------------+
| ID    | Title                                  | relevance      |
+--------+----------------------------------------+-----------------+
| 193584 | Florida Health Insurance              | 10.545636177063 |
| 281813 | Florida Insurance Lawyers              | 10.545636177063 |
| 214760 | Florida Health Insurance              | 10.545636177063 |
| 210643 | Florida Car Insurance Requirements    | 10.545636177063 |
| 214756 | Florida Medical Insurance              | 10.545636177063 |
| 193583 | Florida Health Insurance Quote        |  10.42969417572 |

znaci rezultat koji sadzi sve 3 trazene reci ima isti relevance kao nalsov koji sadrzi samo 2 od 3 reci. Ovo sam probao na 2 servera na kojima stavljen mysql 4.1.20 i na oba s eidenticno ponasa...

Takodje postoji i nesto cudno oko boolean searcha, jer:
Kôd:

mysql> SELECT a3a.ID, a3a.Title
    -> FROM articles3 AS a3a
    -> WHERE
    -> MATCH (a3a.Title) AGAINST ('+florida +car +insurance' IN BOOLEAN MODE)
    -> LIMIT 10;
+--------+------------------------------------------------------------------------+
| ID    | Title                                                                  |
+--------+------------------------------------------------------------------------+
| 193582 | Florida Group Health Insurance                                        |
| 193583 | Florida Health Insurance Quote                                        |
| 193584 | Florida Health Insurance                                              |
| 193585 | Florida Individual Health Insurance                                    |
| 193586 | Florida Small Business Health Insurance                                |
| 193587 | Florida State Health Insurance                                        |
| 193632 | Affordable Florida Health Insurance                                    |
| 193716 | An Overview of Health Insurance Coverage for Individuals in Florida    |
| 193828 | Regulations Concerning Long Term Care Insurance in Florida            |
| 194058 | Florida Flood Insurance:  How Residents Can Obtain and Benefit from It |
+--------+------------------------------------------------------------------------+
10 rows in set (0.04 sec)

znaci iako ima pluseve ipred svih reci on ipak vrati i recorde koij ne sadrze "car" u sebi, iako u mysql manualu lepo pise:
Citat:

A leading plus sign indicates that this word must be present in each row that is returned.
opet, ovo je probano na 2 servera (mysql 4.1.20) znaci nije problem u ostecenim indexima ili tako nesto, negoje neki bug u fulltext searchu...

jel zna neko slucajno isplati li se da upgradujem mysql na 5-cu, da li tamo full-text search radi bolje?

Dejan Topalovic 15. 11. 2007. 18:27

Mislim da to nije bug, nego feature. :D

Naime, full-text search "ignorise" sve rijeci, koje su manje ili jednake od vrijednosti definisane u parametru ft_min_word_len, koji je po defaultu 3.

Posto ti ovdje imas rijec "car", a to je 3 znaka, onda ti full-text pretraga jednostavno ignorise tu rijec i pretrazuje samo po rijecima "florida" i "insurance".

Takodje, provjeri da ti rijec "car" nije u "stop keywords" listi.

Probaj sa nekom duzom rijeci, pa se uvjeri da li je to to. :D

dinke 15. 11. 2007. 19:48

Citat:

Prilikom pretrage ignorišu se “uobicajene reci”, tj. one koje postoje u minimum 50% slogova. Takode, ignorišu se takozvane “stopwords” reci kao što su “the”, “and” i sl. kao i reci krace od 4 karaktera. Spisak svih ovih reci možete naci u odgovarajucoj sekciji MySQL manuala uz napomenu da ih možete promeniti (recimo prilagodavanjem srpskom jeziku) tako što cete promeniti putanju do fajla sa ignorisanim recima. Upustvo za to možete naci ovde.
izvor: http://www.dinke.net/blog/2006/01/20...t-searches/sr/

Dakle, slazem se sa Dejanom, bice da je u pitanju feature a ne bug :)

ivanhoe 16. 11. 2007. 01:46

vidis na to sam potpuno zaboravio, a sto je najgore znam za to ogranicenje, ali nisam uopste povezao da 'car' ima samo 3 slova..
/me stupid...:D

thanx ppl..


Vreme je GMT +2. Trenutno vreme je 00:58.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.