Valutazione discussione:
  • 0 voto(i) - 0 media
  • 1
  • 2
  • 3
  • 4
  • 5
  Condividi: Facebook Twitter
Differenze tra txt
#1
Ragazzi, sto uscendo pazzo per una cavolata, o almeno credo...

Sto in pratica creando una procedura in batch da Windows 8.1 per spezzettare ed elaborare un pdf, come da altro post in altra sezione

Le varie procedure le ho tutte create con programmi free da linea di comando, per questo uso un file bat, di modo che con un solo click sul bat parte l'intera procedura facendo partire i vari programmi

Alla fine della procedura ho fatto creare un file txt che contiene una parte di nome file, un nome per ogni riga, che va sommato ad altre parti per la rinomina completa, per un totale di circa 400 file PNG

Il problema è che tale lista di numeri per la rinomina comprende come primi caratteri tre caratteri estranei che non so come vengano fuori, ma solo da finestra dos, se si aprono da Win non compaiono

Ho allegato due txt, uno che da il problema e uno no, apparentemente uguali ma di dimensioni leggermente diverse, se da prompt dei comandi si prova a visualizzarli (col semplice type ok.txt oppure type ko.txt e magari aggiungendo |more alla fine per visualizzare una schermata alla volta) si nota la differenza, come da immagine allegata

Il programma che crea la lista in txt è Capture2Text che ha anche le opzioni per usarlo da linea di comando, un OCR gratuito e funzionale

Ma che differenza c'è tra i due txt allegati?

Quello OK.txt l'ho creato modificando il file KO.txt, sempre da bat, con alcuni comandi che eliminano i primi tre caratteri, per cui ho risolto

Ma mi piacerebbe sapere, se qualche utente Linux o Mac ha voglia di aprire i due txt visto che da Win sembrano uguali, se notano differenze, magari, non lo so, sul formato della codifica ANSI o UTF-8 o simili, o se qualcuno ha qualche idea

Grazie, e scusate la lungaggine
[url=http://capture2text.sourceforge.net/#standard_ocr_capture][/url]


Allegati Anteprime
   

.txt   KO.txt (Dimensione: 2,96 KB / Download: 12)
.txt   OK.txt (Dimensione: 1,81 KB / Download: 9)
Cita messaggio
#2
L'unica cosa su cui posso aiutarti è che se apro i due file su Lubuntu (come da allegato) risultano identici, KO.txt con un peso di 3,0 KiB, mentre OK.txt pesa 1,8 KiB.


Allegati Anteprime
   
Cita messaggio
#3
Codifica dei caratteri diversa; UTF-8 per OK.txt e UTF-8-Bom per KO.txt
La codifica con Bom usa un maggior numero di byte per cui il file è più pesante a parità di contenuto leggibile
Bene per male è carità, male per bene è crudeltà
Cita messaggio
#4
Grazie Blue per la verifica, quindi uguale a Win...

Grazie Blackstar, si, l'avevo vista la differenza, con Notepad++ compare ma anche cambiando codifica e salvando il file rimane della stessa lunghezza e sempre quei caratteri strani non visibili se non da finestra DOS

Però... c'è un però

Il programma Capture2text è, presumo dalle schermate di aiuto, stato scritto da un giapponese, ed infatti se apro KO.txt con Notepad++ e metto un set di caratteri diverso, es giapponese, compaiono caratteri strani, anche se il set che fa apparire i caratteri strani più simili a quelli che mi compaiono è l'ebraico OEM 862.
Sempre in Notepad++ si nota differenza anche tra i font dei due file OK e KO, e l'occupazione Ln Col in basso, sempre più colonne di quelle che ci dovrebbero essere

Farò qualche prova con Capture2text mettendo lingue diverse, magari è quello... il cinese\giapponese\ebraico\quel_che_è non li conosco :o)
Cita messaggio
#5
Niente da fare, di default Capture2text usa come lingua per l'OCR l'inglese, ma anche mettendo altre lingue i caratteri strani ci sono sempre

Per cui uso i comandi da bat per toglierli e amen

Capture2text è l'unico programma che ho trovato che mi permette un OCR da linea di comando

Se ne conoscete altri... magari che facciano il cosiddetto OCR a zone

Ma dubito ne esistano free
Cita messaggio


Vai al forum:


Utenti che stanno guardando questa discussione: 2 Ospite(i)