Consenso all'uso dei cookies

SITO1 -- SITO2 -- Forum2 -- CercaGlobale -- Informativa su Cookie e Privacy

Questo Forum1 è in sola lettura -- Usa il Forum2


Valutazione discussione:
  • 0 voto(i) - 0 media
  • 1
  • 2
  • 3
  • 4
  • 5
Cercare testo in PDF da scansione
#1
Gentili signore e signorii ho un piccolo problema che vi giro: nel sito del mio comune pubblicano le delibere in formato PDF, però se provo a cercare testo nel file mi dice sempre che non esiste. Ho saputo che l'ufficio competente scannerizza le delibere da cartaceo e li pubblica (tanto è vero che queste hanno tutte come nome "scansione1"); da qui mi pare di aver capito che quando scannerizzo anche in formato PDF si forma una sorta di immagine.
Siccome faccio uso di xsane per scannerizzare diversi testi mi sono messo alla prova: ho scannerizzato una pagina con xsane in formato PDF e con mia sorpresa ho appurato che non è possibile cercare una singola parola con la funzione cerca pur avendo aperto il file con adobe acrobat reader.
Ho fatto una piccola ricerca ed ho trovato questa guida solo che mi inceppo in due punti: quando dice
Codice:
Per evitare sovrascritture dei file è necessario prependere un numero progressivo al file pdf quindi apri il file /etc/cups/cups-pdf.conf e imposta Label 1
e quando indica di
Codice:
cambia il comando da  lpr a lpr -P yourprinternameforcups-pdf
. Da sempre per scannerizzare in OCR ho usato un'impostazione indicata in questa guidae funziona a meraviglia tranne il fatto che riconosce il testo ma non le impostazioni.
Secondo voi è possibile scannerizzare con xsane in formato PDF per poi poter cercare le parole con adobe?
Per la cronaca uso Ubuntu 12.04 plus 9, ho provato ad aprire i file scannerizzati con libreoffice dopo aver installato PDF-import ma si apre libreoffice draw che vede il testo come intera immagine mentre per i file PDF "normali" suddivide ogni rigo come casella di testo!
Grazie in anticipo a tutti e spero di essermi spiegato bene
Sconosco l'inglese e mi rifiuto di impararlo
Da solo avrò un'idea, in due potremmo averne tre, in tanti troveremo la soluzione migliore
Buona vita a tutti Heart
Cita messaggio
#2
Per quanto ne so io, la scansione OCR non può permettersi di valutare anche la formattazione o per lo meno per il momento.
Questo anche se in teoria potrebbe arrivare a farlo con un reverse engeenering del suo stesso processo.
Solo che per ora non ne ho sentito parlare.

Quando fai un .ps (e magari poi lo chiami .pdf) non fai altro che catturare un output prima di indirizzarlo a una stampante e quindi quello che hai non è altro che una serie di punti colorati cioè un'immagine.
Se invece fai un salto di qualità e produci un vero .pdf e ci salvi dentro del testo formattato, la faccenda cambia parecchio.
Una scansione senza ocr un testo non lo avrà mai: perché ci sia bisogna che qualcuno abbia fatto il .pdf indirizzandoci l'output di un elaboratore di testo e chiarendo a quel testone di programma che la sola immagine post script non era sufficiente ma che ci voleva anche il testo.
[Immagine: http://pclinuxos.com/forum/avatars/Pengu...guitux.png] Parole !
Mai che se ne trovino due uguali !
Cita messaggio
#3
Scusa Zafran con tutto il rispetto ma proprio ieri con windows un mio conoscente ha scannerizzato una pagina e subito dopo, aprendola con adobe la ricerca testo funzionava, tieni conto che la formattazione della pagina, da quel che ho potuto intravedere, mi è sembrata uguale all'originale. Chiederò che programma usa per la scansione!
Sconosco l'inglese e mi rifiuto di impararlo
Da solo avrò un'idea, in due potremmo averne tre, in tanti troveremo la soluzione migliore
Buona vita a tutti Heart
Cita messaggio
#4
Io su windows uso abbyy fine reader che ho trovato su cd installazione stampante, per ottenere un file testo o pdf la scansione devo farla direttamente da quel programma.
Cita messaggio
#5
(09-04-2013, 19:42 )d4rkheart Ha scritto: Io su windows uso abbyy fine reader che ho trovato su cd installazione stampante, per ottenere un file testo o pdf la scansione devo farla direttamente da quel programma.

Scusa m ary ma una volta fatta la scansione in formato PDF aprendo il file con adobe acrobat reader la funzione "cerca testo" (spesso contenuta nella casella con scritto "find") funziona? Saresti così gentile da provare eventualmente; sto cercando qualcosa di simile a abbyy per ubuntu ma non trovo nulla, casomai, se è gratuito, lo installo su wine!
Grazie in anticipo!
Sconosco l'inglese e mi rifiuto di impararlo
Da solo avrò un'idea, in due potremmo averne tre, in tanti troveremo la soluzione migliore
Buona vita a tutti Heart
Cita messaggio
#6
si, dopo aver salvato puoi cercare il testo perché il file pdf viene salvato come testo e non come immagine. Vuoi che ti mando la cartella del programma per vedere se riesci a installarlo su wine?
Cita messaggio
#7
se con adobeacrobat invece di "trova" usi "cerca" da modifica, dovrebbe trovarti.
Cita messaggio
#8
Non per fare il precisino, ma nel comune di Nicolo sono "poco astuti"; le delibere vengono sicuramente scritte al computer, vorrei sapere che gusto ci trovano a scansionarle quando basterebbe produrre il PDF in formato testuale con una semplice stampante pdf...
Il mio blog: http://zerozerocent.blogspot.it/
Legge di Murphy: SE QUALCOSA PUO' ANDAR MALE, LO FARA'
Cita messaggio
#9
se il file pdf è un'immagine non trova e non cerca nulla.
Cita messaggio
#10
appunto:
ma 'ste delibere le dovranno pur scrivere con Word o le scrivono a mano, santo cielo?
a quel punto ci vuole tanto a stampare in pdf? ma perché scansionano?
Il mio blog: http://zerozerocent.blogspot.it/
Legge di Murphy: SE QUALCOSA PUO' ANDAR MALE, LO FARA'
Cita messaggio


Vai al forum:


Utenti che stanno guardando questa discussione: 1 Ospite(i)