Archives / Snippets / Projets

http://wiki.loria.fr/wiki/Conversion_de_fichiers_texte

Conversion de fichiers texte Certains OS utilisent par défaut l'encodage UTF-8 (cas de linux ubuntu par exemple), ce qui pose parfois des problèmes lorsque l'on souhaite réutiliser des données créées sous un autre système (utilisant l'encodage latin 1 par exemple). Pour continuer à manipuler ces données, deux outils en ligne de commande peuvent être utiles : file et iconv. Le premier permet de vérifier l'encodage d'un fichier: ~$ file lemmas.txt lemmas.txt: UTF-8 Unicode text Le second permet de convertir l'encodage d'un fichier (par exemple pour passer de latin-1 à UTF-8): ~$ iconv -f ISO-8859-1 -t UTF-8 InputFile -o OutputFile Remarques: il existe également une commande pour gérer l'encodage des noms de fichier convmv. lorsqu'un fichier UTF-8 est ouvert avec emacs, ce dernier place un u en bas à gauche ; lorsque le fichier est en latin-1, il place un 1. Le menu Options -> Mule -> Set Coding Systems -> For Saving this Buffer (C-x RET f) permet de modifier l'encodage, exemple: C-x RET f latin-1. La documentation suivante fournie pas mal d'infos sur la manipulation de fichiers UTF-8 [1]. Le document Instantiating JavaCC 3.2 Tokenizers/Parsers to Read from Unicode Source Files fournit des informations sur la manipulation de fichiers unicode avec le générateur de parsers JavaCC. Une autre explication intéressante est disponible à l'adresse http://french.joelonsoftware.com/Articles/Unicode.html