Prirodna obrada teksta jeste stvarno zajebana stvar. Postoje li vec neka istrazivanja sa open-source kodom. Trazio sam na netu ali nisam nasao nista korisno.
|
Ovaj http://www.nltk.org/ sajt nudi ono sto je neko spomenuo - prirodnu obradu teksta ali je nazalost rec o pyton a ne o php codu.
|
Niko ti ne brani da ga portujes ;)
|
Problem je sto nisam do sada radio ''pyton'' projekte pa mi treba vremena da proucim, naucim, koristim. php mi mnogo vise lezi ;)
|
E sad jedno banalno pitanje ali me jako interesuje... sta ako sa neke stranice pruzmem tekst zatim taj tekst podelim na paragrafe i iskoristim php funciju similar_text koja daje procenat podudarnosti, onaj paragraf koji ima najveci stepen podudarnosti ima i najvecu verovatnocu da je koristan ? - ne mora da znaci ali verovatno u 80% slucajeva?
Zna li ko, da li ova funcija meri stepen podudarnsoti izmedju karaktera tj. slova ili izmedju reci? |
Evo jednog predloga za algoritam a nadam se feedbacku:
1.Za odredjenu kljucnu rec preuzme se tekst sa 10 najrelevantnijih strana 2.Izbace se reci a,and,or, ... tj. tipicne reci za odredjeno govorno podrucje 3.Sve strane se objedinjuju i pronalaze se 10-ak najzastupljenijih kljucnih reci za sve strane 4.Sada se svaka strana posebno deli na paragrafe i svaki paragraf se analizira sa tih 10-ak najzastupljenijih kljucnih reci i onaj sa najvise podudarnosti se izdvaja. Prosto ali ne znam samo koliko i ucinkovito :( |
"The app uses an algorithm to recognise what category of information a webpage contains by using "ontological detection" to identify its nature which in turn determines which set of instructions should be used to provide a consolidated summary of its text."
Sta bi tacno znacilo "ontological detection" ? http://www.enggjournals.com/ijcse/do...-03-03-117.pdf |
Obrati pažnju na gornji desni ugao ;) Meni nije jasno zašto to uopšte pokušavaš, pod 1, već ima, i aplikacija je prevara, jer tako nešto je u suštini impossibru. Pod 2, teško je to napraviti, a onda se vrati na 1. |
App je zaista lose odradjen i ne daje u 50% slucajeva neke korisne rezultate... ali ono sto ja pokusavam je malo vise od toga.
Npr. potrebno mi je da za neki topic dobijem kljucne reci koje ga objasnjavaju sportski automobili <=> ferari,porse,audi ... A takodje i mogucnost da se obradjuje upit pa tako ako u upitu postoji ''where'' onda se upit odnosi na lokaciju, ako u upitu postoji "why" ... i slicne kombinacije, ako postoji znak $ , "e" , "din" odnosi se na cenu , m2 - na kvadraturu i sl. i na osnovu upita da gewnerise potrebne rezultate! tj. ZELIM DA URADIM PRETRAZIVAC DA SE NA OSNOVU UPITA AUTOMATSKI GENERISE ODGOVOR KOJI SE PRONALAZI U REZULTATIMA GUGLA, BINGA I BLEKKA! UPISE SE "kOLIKO KM2 IMA PARIS" I ANALIZOM STRANA DOBIJE SE ODGOVOR :) znam da je tesko ali ne i nemoguce. |
Cak sta vise ovaj sajt www.qwiki.com je mnogo blizi onom sto zelim da uradim nego li summly ... samo naravno sa tekstom, slikama i videom bez citanja teksta...
Takoreci da se na osnovu upita dobije stranica sastavljena od wikipedia informacija, slika, videa i ostalih elemenata koji se pronadju za odredjeni upit! |
Vreme je GMT +2. Trenutno vreme je 17:27. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.