Bitno, nebitno ...
Predlozite neku vrstu algoritma koji bi na osnovu kljucne reci u nekom tekstu odvajao bitno od nebitnog... npr. za kljucnu rec beograd izdvoji pasus ili recenice koje su najbitnije? Kako da izvedem to?
tj. neki algoritam za analiziranje teksta! |
omg
|
Ne moras da komentarises ako ne znas nista pametno da kazes ;)
|
@3banchi omfg
|
To što tražiš se stručno zove Natural Language Processing. Imaš odličnu python biblioteku u kojoj je implementirano dosta alata za procesiranje teksta. Tako da jednostavne obrade možeš vrlo jednostavno da uradiš.
Ali ovo što ti tražiš ne spada u jednostavne obrade jer predstavlja izvlačenje značenja iz teksta i bez dobre teorijske podloge dobijaćeš iste rezultate kao da staviš random odabir paragrafa ili rečenica. |
Pocni odavde
|
odabrao si ekstremno komplikovanu materiju, nije to nesto sto mozes na brzaka savladati...
ako te ipak zanima kljucne reci su ti data mining, text mining, pattern recognition, ontologies, natural language processing... pa kreni polako po blogovima i wikipediji da steknes predstavu o cemu je rec |
Znam da je ovo izuzetno teska materija ali vec sam krenuo da razvijam svoj nazvacu ga ''people minning'' algoritam... Zato sto ce se iz teksta najpre napraviti klasifikacija bitnog i manje bitnog na osnovu procenata ucesca kljucne reci, a zatim ce korisnici imati mogucnost da kliknu na link usefull - not usefull (nesto kao like-unlike) i ukoliko kliknu na not usefull na to mesto ce doci tekst koji je po meni bio od sekundarne vaznosti... vremenom ce se napraviti solidna baza iskristalisanih rezultata :) na osnovu onoga sto ljudi misle da je najbitnije. Dobra ideja?
|
Konkretno, za kljucnu rec "Beograd", klincu backpackeru iz GB je najbitnije u kom hostelu moze da prespava, na kom splavu da se napije, i gde da pojede cevape, dok je nekome ko pise rad o istoriji Beograda najbitnije kad je Beograd oslobodjen od Turaka, kad su ga bombardovali Nemci, kad saveznici...
I cije "bitnije" je tu sad bitnije? |
Citat:
Hvala na sugestiji, na mestu je svakako! |
Prirodna obrada teksta jeste stvarno zajebana stvar. Postoje li vec neka istrazivanja sa open-source kodom. Trazio sam na netu ali nisam nasao nista korisno.
|
Ovaj http://www.nltk.org/ sajt nudi ono sto je neko spomenuo - prirodnu obradu teksta ali je nazalost rec o pyton a ne o php codu.
|
Niko ti ne brani da ga portujes ;)
|
Problem je sto nisam do sada radio ''pyton'' projekte pa mi treba vremena da proucim, naucim, koristim. php mi mnogo vise lezi ;)
|
E sad jedno banalno pitanje ali me jako interesuje... sta ako sa neke stranice pruzmem tekst zatim taj tekst podelim na paragrafe i iskoristim php funciju similar_text koja daje procenat podudarnosti, onaj paragraf koji ima najveci stepen podudarnosti ima i najvecu verovatnocu da je koristan ? - ne mora da znaci ali verovatno u 80% slucajeva?
Zna li ko, da li ova funcija meri stepen podudarnsoti izmedju karaktera tj. slova ili izmedju reci? |
Evo jednog predloga za algoritam a nadam se feedbacku:
1.Za odredjenu kljucnu rec preuzme se tekst sa 10 najrelevantnijih strana 2.Izbace se reci a,and,or, ... tj. tipicne reci za odredjeno govorno podrucje 3.Sve strane se objedinjuju i pronalaze se 10-ak najzastupljenijih kljucnih reci za sve strane 4.Sada se svaka strana posebno deli na paragrafe i svaki paragraf se analizira sa tih 10-ak najzastupljenijih kljucnih reci i onaj sa najvise podudarnosti se izdvaja. Prosto ali ne znam samo koliko i ucinkovito :( |
"The app uses an algorithm to recognise what category of information a webpage contains by using "ontological detection" to identify its nature which in turn determines which set of instructions should be used to provide a consolidated summary of its text."
Sta bi tacno znacilo "ontological detection" ? http://www.enggjournals.com/ijcse/do...-03-03-117.pdf |
Obrati pažnju na gornji desni ugao ;) Meni nije jasno zašto to uopšte pokušavaš, pod 1, već ima, i aplikacija je prevara, jer tako nešto je u suštini impossibru. Pod 2, teško je to napraviti, a onda se vrati na 1. |
App je zaista lose odradjen i ne daje u 50% slucajeva neke korisne rezultate... ali ono sto ja pokusavam je malo vise od toga.
Npr. potrebno mi je da za neki topic dobijem kljucne reci koje ga objasnjavaju sportski automobili <=> ferari,porse,audi ... A takodje i mogucnost da se obradjuje upit pa tako ako u upitu postoji ''where'' onda se upit odnosi na lokaciju, ako u upitu postoji "why" ... i slicne kombinacije, ako postoji znak $ , "e" , "din" odnosi se na cenu , m2 - na kvadraturu i sl. i na osnovu upita da gewnerise potrebne rezultate! tj. ZELIM DA URADIM PRETRAZIVAC DA SE NA OSNOVU UPITA AUTOMATSKI GENERISE ODGOVOR KOJI SE PRONALAZI U REZULTATIMA GUGLA, BINGA I BLEKKA! UPISE SE "kOLIKO KM2 IMA PARIS" I ANALIZOM STRANA DOBIJE SE ODGOVOR :) znam da je tesko ali ne i nemoguce. |
Cak sta vise ovaj sajt www.qwiki.com je mnogo blizi onom sto zelim da uradim nego li summly ... samo naravno sa tekstom, slikama i videom bez citanja teksta...
Takoreci da se na osnovu upita dobije stranica sastavljena od wikipedia informacija, slika, videa i ostalih elemenata koji se pronadju za odredjeni upit! |
epa ajd' srecno!
Off Topic: (je l' ima opcija da uradim neki topic hidden? kad idem na view new messages da ga ne pokazuje vise) |
Hvala!
|
ovo bi ti moglo pomoci: knjiga za nltk http://www.nltk.org/book?=
|
Kao sto i drugi kazu, tebi treba "Natural Language Processing".
Tvoja sreca da ces imati bas iz toga kurs na Stanfordu za DZ :D http://www.nlp-class.org/ ako te kurs zanima, mozes i da pretrazis ovu temu, pa srecno http://www.devprotalk.com/showthread.php?t=10684 |
Vreme je GMT +2. Trenutno vreme je 17:37. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.