Differenze tra txt - Versione stampabile +- Forum Informatica Libera (https://www.ergosumracalmuto.org/informaticalibera/forum) +-- Forum: Sistemi Operativi (https://www.ergosumracalmuto.org/informaticalibera/forum/forumdisplay.php?fid=5) +--- Forum: Windows (https://www.ergosumracalmuto.org/informaticalibera/forum/forumdisplay.php?fid=7) +--- Discussione: Differenze tra txt (/showthread.php?tid=829) |
Differenze tra txt - bobo779256 - 29/10/2020 Ragazzi, sto uscendo pazzo per una cavolata, o almeno credo... Sto in pratica creando una procedura in batch da Windows 8.1 per spezzettare ed elaborare un pdf, come da altro post in altra sezione Le varie procedure le ho tutte create con programmi free da linea di comando, per questo uso un file bat, di modo che con un solo click sul bat parte l'intera procedura facendo partire i vari programmi Alla fine della procedura ho fatto creare un file txt che contiene una parte di nome file, un nome per ogni riga, che va sommato ad altre parti per la rinomina completa, per un totale di circa 400 file PNG Il problema è che tale lista di numeri per la rinomina comprende come primi caratteri tre caratteri estranei che non so come vengano fuori, ma solo da finestra dos, se si aprono da Win non compaiono Ho allegato due txt, uno che da il problema e uno no, apparentemente uguali ma di dimensioni leggermente diverse, se da prompt dei comandi si prova a visualizzarli (col semplice type ok.txt oppure type ko.txt e magari aggiungendo |more alla fine per visualizzare una schermata alla volta) si nota la differenza, come da immagine allegata Il programma che crea la lista in txt è Capture2Text che ha anche le opzioni per usarlo da linea di comando, un OCR gratuito e funzionale Ma che differenza c'è tra i due txt allegati? Quello OK.txt l'ho creato modificando il file KO.txt, sempre da bat, con alcuni comandi che eliminano i primi tre caratteri, per cui ho risolto Ma mi piacerebbe sapere, se qualche utente Linux o Mac ha voglia di aprire i due txt visto che da Win sembrano uguali, se notano differenze, magari, non lo so, sul formato della codifica ANSI o UTF-8 o simili, o se qualcuno ha qualche idea Grazie, e scusate la lungaggine [url=http://capture2text.sourceforge.net/#standard_ocr_capture][/url] RE: Differenze tra txt - Blue - 30/10/2020 L'unica cosa su cui posso aiutarti è che se apro i due file su Lubuntu (come da allegato) risultano identici, KO.txt con un peso di 3,0 KiB, mentre OK.txt pesa 1,8 KiB. RE: Differenze tra txt - Blackstar - 30/10/2020 Codifica dei caratteri diversa; UTF-8 per OK.txt e UTF-8-Bom per KO.txt La codifica con Bom usa un maggior numero di byte per cui il file è più pesante a parità di contenuto leggibile RE: Differenze tra txt - bobo779256 - 30/10/2020 Grazie Blue per la verifica, quindi uguale a Win... Grazie Blackstar, si, l'avevo vista la differenza, con Notepad++ compare ma anche cambiando codifica e salvando il file rimane della stessa lunghezza e sempre quei caratteri strani non visibili se non da finestra DOS Però... c'è un però Il programma Capture2text è, presumo dalle schermate di aiuto, stato scritto da un giapponese, ed infatti se apro KO.txt con Notepad++ e metto un set di caratteri diverso, es giapponese, compaiono caratteri strani, anche se il set che fa apparire i caratteri strani più simili a quelli che mi compaiono è l'ebraico OEM 862. Sempre in Notepad++ si nota differenza anche tra i font dei due file OK e KO, e l'occupazione Ln Col in basso, sempre più colonne di quelle che ci dovrebbero essere Farò qualche prova con Capture2text mettendo lingue diverse, magari è quello... il cinese\giapponese\ebraico\quel_che_è non li conosco :o) RE: Differenze tra txt - bobo779256 - 31/10/2020 Niente da fare, di default Capture2text usa come lingua per l'OCR l'inglese, ma anche mettendo altre lingue i caratteri strani ci sono sempre Per cui uso i comandi da bat per toglierli e amen Capture2text è l'unico programma che ho trovato che mi permette un OCR da linea di comando Se ne conoscete altri... magari che facciano il cosiddetto OCR a zone Ma dubito ne esistano free |