LOCODUINO - Les chaînes de caractères

Les chaînes de caractères

Du texte, toujours du texte...

Le 22 octobre 2015.
Par : Thierry

DIFFICULTÉ :★☆☆

Avoir bon caractère n’est pas donné à tout le monde. Mais avec l’Arduino, un caractère bien trempé est nécessaire !
Trêve de plaisanterie, voyons comment nos hiéroglyphes graphiques se sont frayés un chemin dans les ordinateurs entièrement numériques !

Un peu d’histoire...

Depuis toujours, les processeurs, qu’ils soient simples comme les Atmel, ou complexes comme ceux de nos ordinateurs reposent tous sur des octets (des bytes en Anglais). Comment à partir de ces octets qui peuvent prendre n’importe quelle valeur entre 0 et 255 a-t-on pu y stocker des caractères ?
Il faut comprendre que les processeurs n’ont que faire de ces choses-là. Les caractères sont destinés à l’échange de données ou à l’affichage, par exemple pour être sûr que le nom de client du programme 1 est lu et interprété correctement par le programme 2, ou qu’un écran affiche correctement ce qu’on lui demande. Ainsi si je demande à un écran d’afficher les caractères correspondants à la suite d’octets 79 75, il faut qu’il utilise la même méthode de conversion, sinon au lieu de voir ’OK’, on risque d’avoir n’importe quoi !

Très tôt il a fallu décider d’une norme pour convertir n’importe quel caractère en octet et inversement. Les premiers ordinateurs reposaient sur une table de conversion appelée table ASCII (pour American Standard Code for Information Interchange). Cette table utilisaient 7 bits et donc des valeurs comprises entre 0 et 127.

La première partie de la table comprise entre 0 et 31 comprend des caractères non graphiques de gestion. Par exemple une tabulation est représentée dans une chaîne par un 9. Le 10 correspond à un saut de ligne (Line Feed) tandis que le 13 est un retour chariot (Carriage Return). Si cette terminologie vous rappelle quelque chose, c’est normal. Sur une antique machine à écrire, pour passer à la ligne il fallait remonter le chariot tout à droite (Carriage return) en poussant le grand levier qui montait la feuille d’une ligne (Line Feed). Ces caractères sont encore utilisés aujourd’hui par les éditeurs de texte (Notepad, PSPad, Sublime Text, Emacs ...) pour représenter un passage à la ligne.

D’autres caractères particuliers sont présents dans cette zone, et pour beaucoup plus du tout utilisés, notamment toute la partie semi—graphique qui permettait de primitifs dessins sur des écrans purement texte :

: LOCODUINO écrit uniquement avec des caractères de la table ASCII !

Le code 32 est l’espace. C’est le premier caractère affichable (façon de parler...) de la table. Viennent ensuite les caractères de ponctuation et/ou particuliers comme les opérateurs arithmétiques de base ou les parenthèses, A partir de 48 nous avons les chiffres arabes. De 58 à 64, d’autres caractères spéciaux comme le ’@’ ou de ponctuation. Viennent ensuite les 26 lettres de l’alphabet latin en majuscule de 65 à 90. Encore d’autres caractères spéciaux, puis les minuscules latines de 97 à 122 pour finir par d’autres caractères spéciaux jusqu’à 127 qui n’est pas un caractère affichable.

à é ê ??

Les plus francophiles d’entre vous auront remarqué qu’à aucun moment il n’est question d’accent, de cédille et autre tréma... C’est que d’une part le standard a été édicté par des américains, et que d’autre part il n’y avait pas assez de place ! C’est pourquoi on a créé l’ASCII étendu qui repousse le nombre de caractères à 256. Mais là encore, pas assez de place pour loger toutes les variantes locales des caractères de tous les langages de la planète, même en se limitant aux alphabets latins... Alors on a fixé des variantes de la table ASCII pour les codes au delà de 127 selon la langue .

Et les autres ?

Bien sûr, nos amis russes, grecs et/ou asiatiques se sont réveillés et ont demandé à généraliser le concept pour y inclure leurs caractères exotiques. Après quelques tergiversations sur des caractères quelque fois sur 8 bits, quelque fois sur 16 (le MBCS), le standard Unicode a été publié. Aujourd’hui largement utilisé, il regroupe sur 16 bits, soient 65536 valeurs possibles, la table ASCII classique sur les 127 premiers caractères, puis tous les caractères locaux, les accentués latins, le Kanji, le Chinois, le Grec et tous les autres... La moitié seulement de l’espace disponible est utilisé, et si demain des Aliens nous rendent visite, une place leur est réservée !
Pour information, il y a au moins une table de conversion inventée par IBM pour ses mainframes et encore utilisée aujourd’hui pour les AS/400 , c’est l’EBCDIC (pour Extended Binary Coded Decimal Interchange Code). Cette table a été créée pour l’utilisation de cartes perforées, c’est ce qui explique sa forme peu orthodoxe.

Mais l’Arduino ?

Comme dit plus haut, l’Arduino en tant que tel ne gère que des octets et ne s’occupe pas de caractères. Les besoins sont donc fixés par l’interface utilisateur. Le premier et le plus connu des besoins est la console série. Lorsque vous voulez afficher ’OK’ sur cette console, vous utilisez Serial.println("OK"); . Cette instruction va transmettre les octets 79, 75 et 0 (on verra pourquoi un zéro en plus un peu plus tard...) à l’objet Serial qui va l’envoyer à son tour à une fenêtre de votre système (Windows, Mac, Linux...). Cette fenêtre va faire la conversion octet->ASCII et afficher OK ! On voit donc que si l’élément recevant les octets le décide, il peut afficher ce qu’il veut... Comment savoir à quoi correspond chaque code ASCII pour un Arduino ? Il suffit de coder un petit programme :

void setup()
{
  Serial.begin(115200);

  Serial.println("      0  1  2  3  4  5  6  7  8  9");
  Serial.print  ("----------------------------------");

  for (byte car = 30; car < 127; car++)
  {
    if (car % 10 == 0) // Le % ou 'modulo' donne le reste de la division entière.
    {
      Serial.println(""); // passe à la ligne
      Serial.print(car, DEC);
      if (car <100)
      {
        Serial.print("  :"); // Besoin d'un peu d'espace...
      }
      else
      {
        Serial.print(" :");
      }
    }
    Serial.print(" ");
    Serial.print((char) car);
    Serial.print(" ");
  }
}

void loop()
{}

Il affiche dix lignes de dix caractères chacune. On va retrouver exactement la table ASCII simple telle que décrite plus haut. Si vous utilisez un écran LCD du commerce, vous retrouverez sans doute le même type de caractères.

Petit exercice : étendez maintenant l’affichage jusqu’à 255 pour inclure la fin de la table ASCII.

Un caractère c’est bien, une chaîne c’est mieux !

Pour une véritable chaîne de caractères, il faut créer un tableau de char :

char text[10];. Dans cette chaîne, vous pourrez mettre 9 caractères. Pourquoi neuf ? Parce que l’on a besoin de signaler la fin de cette chaîne. Cela découle d’un comportement de base des langages C et C++ : un tableau ne connait pas sa propre taille ! Même après avoir explicitement créé un tableau de dix caractères, vous pouvez écrire sans problème text[12] = 'E';. Il n’y aura pas d’erreur de compilation, pas de warning, rien qui vous permette de vous rendre compte immédiatement de votre méprise. Et le plus grave, c’est que ça va marcher ! Vous allez sans doute écraser quelque chose, peut être sans importance, peut-être pas... Mais l’emplacement mémoire text+12 contiendra bien le code ASCII de E, 69 .
Une chaîne de caractères en C, c’est toujours la liste des caractères suivie d’un octet à zéro qui matérialise la fin réelle de la chaîne. Si vous voulez une chaîne de dix caractères maximum, il vous faut réserver la place pour onze octets : char text[11]; .

Faire du traitement de texte...

Manipuler une chaîne revient à manipuler un tableau en s’assurant que son contenu ne dépasse pas la taille maximale, et que la liste des caractères est bien terminée par un zéro.

Créons une nouvelle chaîne :

void setup()
{
  char text[10];

  text[0] = 'B';  // on peut aussi écrire avec le code ASCII text[0] = 66;
                     // mais c'est (un peu) plus clair comme ça !
  text[1] = 'o';
  text[2] = 'n';
  text[3] = 'j';
  text[4] = 'o';
  text[5] = 'u';
  text[6] = 'r';
  text[7] = 0; // on s’arrête là. Ce qui se trouve derrière le 0 n'a pas d'importance.
}

On obtiendra la même résultat avec

void setup()
{
  char text[10] = "Bonjour";
}

Le compilateur comprend grâce aux guillemets qu’il s’agit d’une chaîne et va tout seul ajouter le zéro. C’est quand même plus lisible. Cette syntaxe ne fonctionne que pour la déclaration de la variable. Notez l’utilisation de simple quote (sous la touche 4 d’un clavier Azerty) pour un seul caractère, alors qu’on utilise le guillemet (sous le 3 du clavier) pour une chaîne de caractère, même si elle n’en comprend qu’un seul !

On peut même faire plus simple et ne pas spécifier la taille du tableau :

void setup()
{
  char text[] = "Bonjour";
}

Le compilateur connait la taille de la chaîne à mettre dans text et va ajouter le zéro tout seul. Seule la mémoire nécessaire sera utilisée.

Trouver la vraie longueur d’une chaîne n’est pas compliqué :

int len(char inText[])
{
  int length = 0;

  while (inText[length] != 0)
    length++;

  return length;
}

Tant que l’on n’a pas atteint le zéro, on incrémente le compteur. Dès qu’il est atteint, on retourne le compteur. On voit bien que si le zéro a été oublié, on risque de tourner longtemps et de parcourir toute la mémoire !

Si on utilise cette petite fonction, ajouter deux chaînes existantes n’est pas très compliqué :

void ajoutechaine(char inDest[], char inSource[])
{
  int lenDest = len(inDest);
  int lenSource = len(inSource);

  for (int pos = 0; pos < lenSource; pos++)
  {
    inDest[lenDest+pos] = inSource[pos];
  }

  // On oublie pas la fin !
  inDest[lenDest+lenSource] = 0;
}

On ajoute à la fin de la première chaîne (inDest[inDest + pos]) le caractère de la nouvelle chaîne (inSource[pos])
On ne va pas continuer comme ça pour vous démoraliser... Les compilateurs C ont depuis longtemps pris en charge les chaînes de caractères classiques via un jeu de fonctions standardisées qui gèrent toutes le zéro de fin correctement. Le principe reste le même, c’est juste qu’il n’est pas nécessaire de réinventer la roue à chaque fois...

Pour les utiliser vous devez ajouter #include <string.h> à votre croquis. Les fonctions en question sont celles-ci :

size_t strlen(const char *text) renvoie la longueur (size_t est un entier...) .
char *strcpy(char *dest, const char *source) copie le contenu de source à la place de dest. La fonction retourne le pointeur dest. Le const signifie que l’argument n’a pas le droit d’être modifié par la fonction.
char *strcat(char *dest, const char *source) copie le contenu de source à la fin de dest. La fonction retourne le pointeur dest. Attention à la taille de la somme des deux ; dest doit pouvoir contenir les deux chaînes bout à bout, plus le zéro !
int strcmp(const char *text1, const char *text2) Comparer deux chaînes n’est pas simple. Ecrire text1 == text2 ne compare que les valeurs des pointeurs qui sont très probablement différents... Pour bien comparer, il faut faire une boucle et comparer les caractères un par un jusqu’au zéro de fin. Cette fonction le fait pour vous. La valeur de retour est soit 0 si ce sont les mêmes, soit 1 ou -1 selon que la première a un code ASCII plus élevé ou moins élevé que la seconde chaîne à la première différence.
char *strlwr(char *source) convertit la chaîne en minuscules (lower case). Vu la structure de la table ASCII, passer en minuscule revient à ajouter 32 au code du caractère.
char *strupr(char *source) convertit la chaîne en majuscules (upper case). Il faut là retirer 32...

Il en a d’autres, en particulier les mêmes que celles-ci avec un argument supplémentaire de longueur maxi pour éviter de planter si le zéro est absent. Leur nom commence souvent par strn au lieu de str. Je vous laisse le plaisir de les découvrir.

Mais tout ça encombre la mémoire !

Le problème des chaînes de caractères, c’est que ça prend de la place ! Et la place, c’est une denrée rare sur nos petits processeurs. Si vous ajoutez un nouveau texte dans votre source

char text[] = "Bonjour Locoduino";

void setup()
{
  Serial.begin(115200);

  Serial.println(text);
}
 
void loop()
{
}

Il va occuper 18 octets (le texte plus le zéro de fin) de mémoire SRAM très précieuse parce que très limitée. Je vous laisse imaginer si toute une ergonomie utilisant des dizaines de textes doit être faite sur un écran, ou si vous voulez discuter par la liaison série par des commandes textes par exemple. Pour économiser la SRAM, il y a une astuce propre à l’Arduino (cela n’existe pas en C/C++) permettant d’envoyer les déclarations constantes dans la mémoire programme généralement moins remplie :

const char text[] PROGMEM = "Bonjour Locoduino";

Le const est là pour garantir que le contenu de cette chaîne ne sera jamais modifié. Mais c’est bien le mot clé Arduino PROGMEM qui va permettre au compilateur de stocker ce texte dans la mémoire programme. Le tableau ( ;) ) serait idyllique si il n’y avait pas une petite contrepartie. Pendant l’exécution, un pointeur de données est toujours un pointeur sur de la mémoire en SRAM. Comme ce n’est pas le cas de ces pointeurs PROGMEM, il faut passer par une phase de récupération des données. Ce qui signifie que l’on ne peut pas se servir de text comme d’habitude. Il faut passer par une fonction de récupération strcpy_P :

const char text[] PROGMEM = "Bonjour Locoduino";

void setup()
{
  Serial.begin(115200);

  char buffer[50];
  strcpy_P(buffer, text);
  Serial.println(buffer);
}

void loop()
{
}

La taille de buffer doit être suffisante pour accueillir le contenu de text avec son zéro de fin.

Même lorsque vous utilisez une chaîne de caractères constante comme argument de fonction, comme un appel à Serial.print() par exemple, la mémoire nécessaire au stockage de cette chaîne par le compilateur est prise sur la SRAM, la mémoire vive, et pas sur la mémoire programme.

// Test avec 30 caractères.
Serial.println("0123456789012345678901234567890123456789");

La compilation pour un Uno donne ça :

Heureusement, il y a aussi une syntaxe directe pour stocker ces chaînes particulières dans la mémoire programme directement :

// Test avec 30 caractères.
Serial.println(F("0123456789012345678901234567890123456789"));

Ce qui donne :

On voit que la mémoire programme a grossi de trente octets, tandis que les variables globales stockées dans la SRAM (limitée à 2048 octets sur le UNO) ont diminué du même volume !

Pour pouvoir bénéficier de cette fonctionnalité, la fonction doit être capable de gérer un argument de type const __FlashStringHelper *, ce qui est le cas de toutes les méthodes de la classe Serial par exemple.

Ces différents moyens de stockage (PROGMEM, F("") ) et d’accés à la mémoire programme (strcpy_P et d’autres pour les entiers, les doubles...) sont bien entendus dédiés à l’Arduino et n’existent pas pour d’autres plateformes, comme les programmes Windows, Linux ou iOs...

Gérer des chaînes de caractères dans un programme Arduino n’est pas compliqué. Il faut juste avoir conscience de la façon dont le processeur les perçoit...

17 Messages

Les chaînes de caractères 25 octobre 2015 17:25, par DDEFF

Bravo Thierry !
Toujours aussi clair.
Peux-tu un peu développer le "F" dans Serial.println(F(...)) ?

Répondre
- Les chaînes de caractères 27 octobre 2015 09:05, par Thierry
  
  Merci :). J’ai revu cette partie. Dis moi ce que tu en penses...
  
  Répondre
Les chaînes de caractères 27 octobre 2015 16:16, par DDEFF

Parfait !
Et ce qu’il y a de bien avec ce genre d’article, c’est qu’on a tout au même endroit.
Si je me pose une question sur une chaîne de caractères, c’est là que j’irai, au lieu de piocher des bribes à gauche ou a droite.
Merci

Répondre
Les chaînes de caractères 10 novembre 2015 01:00, par jac56

Très bon article.
Un complément proposé :
il n’est pas aisé de trouver dans la documentation Arduino toutes les informations utiles pour éviter de saturer la mémoire sram (la mémoire de stockage des variables du programme, dont les chaînes de caractères, notamment, très grosses consommatrices de cette mémoire).
A propos de l’utilisation de la mémoire programme pour stocker des données, voici un (vieux) lien qui donne des informations complémentaires :
http://www.nongnu.org/avr-libc/user...
(déclaration et récupération des données en ’progmem’ dans le cas de tableaux de chaînes par exemple, et aussi de tableaux de nombres).
Il pourrait être agréable de le mettre sous la forme d’un article Locoduino qui mentionnerait conjointement l’utilisation de la fonction freeMemory() qui permets de connaître la taille de sram restant libre. Cette fonction a déjà été citée dans un article, mais il manque peut-être une vue synthétique sur ce sujet assez délicat qui mériterait bien un article à lui tout seul.

Répondre
Les chaînes de caractères 17 avril 2016 19:36, par Eric

Bonjour,

J’utilise un shield GSM qui doit envoyer le message suivant :

"sos ][1.1][2.0][3 ;0"

Le sms est traité et l’état des capteurs 1 2 et 3 sont inscrits dans une base de données.

Lors de l’envoi du sms, les ][ se transforme en )(... et l’info n’est pas traitée

Quelqu’un peut -il m’aider ???
Merci

Répondre
Les chaînes de caractères 18 avril 2016 10:49, par Jean-Luc

Les crochets ne font pas partie du jeu de caractères des SMS. Il faut changer votre protocole. Quel est le rapport avec le modélisme ferroviaire ? Les forum de arduino.cc ne seraient-il pas plus adaptés pour ce genre de demande ?

Répondre
Les chaînes de caractères 13 avril 2017 19:19, par PIVAR

Merci , vos articles sont bien (et agréables à lire , même si on saisit pas tout du premier coup) ; j’ai vu dans la doc arduino que les chaines de caractère "string" étaient utilisables , un peu comme celles des Vb , python ou b4x ; ont-elles la même contrainte de zero final que les chaines de caractères ?

Répondre
Les chaînes de caractères 21 avril 2017 21:10, par Thierry

Bonjour. Je n’ai pas utilisé cette classe String maintenant présente par défaut avec l’IDE actuel. La contrainte du caractère de fin de chaîne existe toujours puisqu’en interne, la classe utilise un banal char * pour stocker son texte. Mais elle est complètement masquée par la classe qui se débrouille pour gérer ce zéro. Elle utilise en plus un entier qui donne la longueur de la chaîne.

Répondre
Les chaînes de caractères 28 avril 2017 00:57, par pivar

Bonjour , j’ai pu regarder les echanges de string pc-arduino ; ce que j’ai vu : lorsque le pc envoie une string en serial , la string se retrouve avec un zero de fin dans arduino ; je teste la fin de message sur ce zero
lorsque arduino envoie un message au pc , la string n’a rien en fin si elle est envoyée avec un Serial.print et elle a les caracteres 10 et 13 avec un Serial .println ; c’est normal , ce sont les caractères de retour ligne ; comme il y a plus de memoire dispo dans les dernières cartes , string peut parfois être plus commode

Répondre
Les chaînes de caractères 5 décembre 2017 15:26, par Frangville

Bonjour je voudrais savoir comment obtenir la longueur d’une variable en char* (char* BSF[]= "Boissons","Sandwichs","Friandises","Chips" ;).
Merci d’avance.

Répondre
Les chaînes de caractères 5 décembre 2017 15:43, par Thierry
Bonjour.
Dans votre exemple, vous avez quatre chaînes de caractères... Pour obtenir la longueur de l’une d’entre elles vous devez utiliser la fonction strlen() :
char* BSF[]= { "Boissons","Sandwichs","Friandises","Chips" }; void setup() { int longueur = strlen(BSF[2]); } void loop() { // put your main code here, to run repeatedly: }
Répondre
Les chaînes de caractères 17 avril 2018 17:31, par Bobillier Eric

Bonjour.
Merci pour cet article très instructif (comme tout le site).
J’aimerais comprendre une chose concernant les chaines et l’objet Chaine en particulier.
Il est possible dans Arduino de déclarer une chaine comme suit : String(Toto) et de la manipuler avec les méthodes de la classe string et surtout de lui associer une valeur. Cependant à aucun moment il n’est fait référence à une quelconque taille comme c’est le cas avec la déclaration des tableaux de char. Cela voudrait-il dire que le compilateur réserve automatiquement et de manière implicite une place définit en mémoire (genre 256 bytes). De plus, il existe une méthode reserve() dans la classe String, mais elle n’est pas systématiquement utilisée pour définir la taille mémoire réservée pour la chaine dans la plupart des exemples, et donc quelle est son utilité. Merci par avance pour vos éclaircissements.

Voir en ligne : Reserve()

Répondre
stocker des messages dans la Ram pour économiser de la place dans le programme 3 mai 2019 08:09, par dominique POPELIN

Bonjour mon problème est inverse. J’ai un croquis qui dépasse les 32256 Octets. Dans celui-ci il y a de stocker "lundi" "mardi" etc et "Janviee" "Février" etc.

Je voudrais créer deux tableaux en Ram pour qu’à l’adresse 1 il y est "lundi" jusqu"à dimanche (soit 8 case de 0 à 7) et un autre avec Janvier jusqu’à Décembre soit de 0 à 12.
Ensuite avec le N° du jour (de 1 à 7) je charge le jour correspondant et de 1 à 12 le mois. J’espère que ca réduiras suffisamment mon croquis car actuellement j’ai environ 1000 "places" dans la Ram. Merci de votre aide.

Répondre
- stocker des messages dans la Ram pour économiser de la place dans le programme 3 mai 2019 09:15, par Jean-Luc
  
  Bonjour. https://www.carnetdumaker.net/artic...
  
  Répondre
  - stocker des messages dans la Ram pour économiser de la place dans le programme 3 mai 2019 23:12, par dominique POPELIN
    
    merci mais mon problème est l’inverse. Je veux économiser de la mémoire programme.
    
    Comme indiqué dans le dossier que tu m’a proposé la solution consiste à changer de µP (je vais utilisser un ATMéga 644P) car je ne peux pas réduire le programme sauf à stocker mes variables constituant mes messages en Ram ce que je ne sais pas faire...
    
    Merci pour ton aide.
    
    Répondre
    - stocker des messages dans la Ram pour économiser de la place dans le programme 5 mai 2019 09:45, par Dominique
      
      La Ram étant vierge à la mise sous tension, il faut bien un bout de programme pour la charger au démarrage : donc occuper de la mémoire programme.
      Si vous ne changez pas de processeur, ça ne va pas être simple !
      
      Répondre
      - stocker des messages dans la Ram pour économiser de la place dans le programme 5 mai 2019 11:28, par POPELIN
        
        Bonjour merci pour les infos j ai commandé un ATMega644 pour lequel j ai fais un sheild spécifique pour charger le boorlaoder..
        
        Répondre