- Comment vérifier mon jeu de caractères?
- A quoi sert UTF-8?
- Dois-je utiliser UTF-8 ou UTF 16?
- Comment déterminez-vous le type d'encodage?
Comment vérifier mon jeu de caractères?
Une façon de vérifier cela est d'utiliser le service de validation de balisage du W3C. Le validateur détecte généralement l'encodage des caractères à partir des en-têtes HTTP et des informations dans le document. Si le validateur ne parvient pas à détecter l'encodage, il peut être sélectionné sur la page de résultat du validateur via le menu déroulant 'Encodage' (exemple).
A quoi sert UTF-8?
UTF-8 est un système d'encodage pour Unicode. Il peut traduire n'importe quel caractère Unicode en une chaîne binaire unique correspondante, et peut également traduire la chaîne binaire en un caractère Unicode. C'est la signification de "UTF", ou "Unicode Transformation Format."
Dois-je utiliser UTF-8 ou UTF 16?
Dépend de la langue de vos données. Si vos données sont principalement dans des langues occidentales et que vous souhaitez réduire la quantité de stockage nécessaire, optez pour UTF-8 car pour ces langues, il faudra environ la moitié du stockage de UTF-16.
Comment déterminez-vous le type d'encodage?
Un encodage flairé en regardant les premiers octets du fichier. Si un encodage est détecté à ce stade, ce sera l'un des encodages UTF-*, EBCDIC ou ASCII. Un encodage reniflé par la librairie chardet, si vous l'avez installé. UTF-8.