DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Programiranje
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: VIP izazov 3

Odgovori
 
Alati teme Način prikaza
Staro 20. 12. 2006.   #1
Ilija Studen
Direktor Kombinata
Invented the damn thing
 
Avatar Ilija Studen
 
Datum učlanjenja: 07.06.2005
Poruke: 2.669
Hvala: 44
119 "Hvala" u 64 poruka
Ilija Studen će postati "faca" uskoroIlija Studen će postati "faca" uskoro
Default Izvlačenje podataka iz Office dokumenata

Interesuje me sledeća stvar: kako da izvučem podatke iz MS Office dokumenata kroz neki standardan interfejs. Npr, da izvučem tekst iz .doc fajlova, da .ppt prezentaciju izvučem u tekstualnom modu i kao niz slajdova (slike) etc.

Treba mi za indeksiranje i preview unutar web aplikacije - kada čovek uploaduje fajl iz njega se izvuku podaci i isti se ubaci u search index. Da li sam Office ili neka druga Microsoftova tehnologija ovo podržava tako da se može koristiti iz drugih programa?

Poslednja izmena od Ilija Studen : 20. 12. 2006. u 14:50.
Ilija Studen je offline   Odgovorite uz citat
Staro 20. 12. 2006.   #2
djipko
član
Certified
 
Avatar djipko
 
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
djipko is on a distinguished road
Default

Nisam se udubljivao, tako da ne znam koliko je dobar primer ali pogledaj
http://www.codeproject.com/office/csautomateword.asp
djipko je offline   Odgovorite uz citat
Staro 20. 12. 2006.   #3
Goran Aničić
Moderator
Expert
 
Datum učlanjenja: 06.06.2005
Lokacija: Novi Sad
Poruke: 538
Hvala: 10
40 "Hvala" u 20 poruka
Goran Aničić će postati "faca" uskoro
Default

Novi Office formati su zasnovani na Open XML standardu (na ovom linku naćićeš dosta toga), pa se podaci ovako mogu izvući uz eventualno dodatne konverzije.
__________________
..................................
Kompjuterski e-zine
Personal magazin
..................................
Blogovi
Svakodnevnica Auto blog
Goran Aničić je offline   Odgovorite uz citat
Staro 20. 12. 2006.   #4
Ilija Studen
Direktor Kombinata
Invented the damn thing
 
Avatar Ilija Studen
 
Datum učlanjenja: 07.06.2005
Poruke: 2.669
Hvala: 44
119 "Hvala" u 64 poruka
Ilija Studen će postati "faca" uskoroIlija Studen će postati "faca" uskoro
Default

Citat:
Originalno napisao Goran Aničić
Novi Office formati su zasnovani na Open XML standardu (na ovom linku naćićeš dosta toga), pa se podaci ovako mogu izvući uz eventualno dodatne konverzije.
Sa tim sam upoznat, ali mislim da u ovom trenutku nije moguće ograničiti se samo na dokumente generisane od strane najnovije verzija Officea. To bi bila loša poslovna odluka
Ilija Studen je offline   Odgovorite uz citat
Staro 20. 12. 2006.   #5
BraMom
Branimir Momcilovic
Qualified
 
Datum učlanjenja: 15.02.2006
Lokacija: Beograd
Poruke: 167
Hvala: 47
25 "Hvala" u 8 poruka
BraMom is on a distinguished road
Default

Ako na serveru imaš instaliran office, možeš da startuješ npr. word i koristiš ga kao COM Server. Iz visual studia se koristi lagano imaš dokumentaciju na msdn
Trebalo bi da sve što radi pod windowsom može da pokrene COM server, npr. php (COM and .NET windows).

Da bi ovo koristio, naravno, moraš da imaš windows server.
__________________
Važnije je biti ljubazan, nego biti u pravu.
BraMom je offline   Odgovorite uz citat
Staro 20. 12. 2006.   #6
marinowski
Igor Marinović
Expert
 
Avatar marinowski
 
Datum učlanjenja: 09.06.2005
Lokacija: Palić
Poruke: 549
Hvala: 31
39 "Hvala" u 17 poruka
marinowski is on a distinguished road
Pošaljite ICQ poruku za marinowski
Default

Ranije su mi hvalili htdig: http://htdig.org/FAQ.html#q4.8

Ne razvija se bas u poslednje vreme, ali mozda ti pomogne.
marinowski je offline   Odgovorite uz citat
Staro 21. 12. 2006.   #7
chesare
Zoran Mihailović
Na probnom radu
 
Datum učlanjenja: 30.09.2006
Lokacija: Beograd
Poruke: 41
Hvala: 1
259 "Hvala" u 1 poruci
chesare is on a distinguished roadchesare is on a distinguished roadchesare is on a distinguished road
Default

Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.

Citat:
Indexing pdf and doc files
Pdf and doc files can be indexed via external binaries. Download and install pdftotext and catdoc and set there location(path) in conf.php...
(i tako dalje)
Ako ti sam Sphider nije dovoljno dobar ili ti ne radi posao skroz, mozes da vidis kako su oni to odradili, pa da nesto hackujes.

U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija).

U svakom slucaju, mislim da vredi probati.
chesare je offline   Odgovorite uz citat
Odgovori



Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
[Firefox Windows] Pokretanje aplikacija i dokumenata sa lokalne mreže 35-68 Code snippets 0 20. 08. 2010. 19:24
Wordpress: pamćenje podataka komentatora Nemanja Avramović Sva početnička pitanja 11 30. 01. 2008. 00:13
Izvlačenje teksta iz PDF-a? Ilija Studen PHP 4 13. 09. 2006. 12:16
Kućni office ili office u gradu? mungos Opušteno 15 07. 02. 2006. 18:21


Vreme je GMT +2. Trenutno vreme je 01:32.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.