Complots, lettres d'amour et remèdes : les secrets médiévaux révélés par l'IA

    • Author, Sandrine Ceurstemont
    • Role, BBC Future
  • Published
  • Temps de lecture: 10 min

Des messages et documents historiques, cryptés et rendus incompréhensibles, se trouvent dans les bibliothèques et les archives du monde entier. L'intelligence artificielle aide les historiens à déchiffrer ces textes mystérieux.

Au plus profond des archives de la bibliothèque vaticane, un mystérieux livre manuscrit, couvert d'étranges symboles, demeurait inexploré depuis plus de quatre siècles. Ses pages énigmatiques recelaient apparemment des remèdes secrets « pour les affections du corps humain », d'après une inscription gravée à l'intérieur de la couverture. De telles pratiques de guérison étaient alors tenues secrètes, car elles pouvaient susciter la suspicion, voire des accusations de sorcellerie.

Connu sous le nom de chiffrement Borg , ce manuscrit de 408 pages est en grande partie indéchiffrable : il est codé à l'aide de 34 symboles obscurs, de quelques lettres romaines et d'une première page rédigée en arabe. Aucune clé de déchiffrement n'a jamais été trouvée. Certaines pages sont également endommagées par le temps, ce qui rend le code encore plus difficile à déchiffrer.

Mais grâce à l'apprentissage automatique – une forme d'intelligence artificielle –, les chercheurs ont pu décrypter le code . Ils ont découvert que le texte contenait des milliers de traitements étranges, comme boire plusieurs verres de vin rouge de grande qualité ou faire fermenter une noix de muscade dans une pâte pour combattre la dysenterie.

« C'est un travail d'enquête où chaque symbole, chaque motif, chaque indice peut nous rapprocher des secrets d'une personne et d'un monde historique disparu », explique Beáta Megyesi, professeure de linguistique informatique à l'université de Stockholm, en Suède, et membre de l'équipe qui a décrypté le texte. Même avec l'aide de l'intelligence artificielle, le processus de décryptage a été extrêmement laborieux.

Megyesi et ses collègues mènent aujourd'hui des efforts pour exploiter la puissance de l'IA afin de déchiffrer plus efficacement les codes historiques, ce qui pourrait permettre de révéler une mine d'informations codées du passé jusqu'alors indéchiffrables.

Selon certaines estimations, environ 1 % des documents conservés dans les archives et les bibliothèques du monde entier sont entièrement ou partiellement cryptés. Parmi les plus anciens systèmes de chiffrement connus figurent ceux de la Grèce et de la Rome antiques.

Leurres, langues mortes et mauvaise écriture

Ensemble, des documents historiques codés recèlent des renseignements diplomatiques, les rituels de sociétés secrètes, des connaissances médicales, des liaisons amoureuses ou des détails du quotidien que l'on souhaitait garder secrets. Ces informations sont actuellement absentes des récits historiques.

Dans certains cas, le décryptage de ces documents pourrait bouleverser notre compréhension d'une personnalité célèbre ou d'une période historique entière. (Un exemple récent est celui d'un ensemble de lettres codées écrites par Marie Stuart, reine d'Écosse, durant sa longue captivité en Angleterre. Elles ont révélé son implication dans des complots visant à reconquérir son trône et ses relations tendues avec son fils, Jacques VI d'Écosse, futur roi Jacques Ier d'Angleterre.)

Les codes historiques peuvent être relativement simples : le code Borg, par exemple, utilise un simple chiffrement par substitution, c'est-à-dire que chaque symbole est remplacé par une seule lettre romaine pour masquer le texte. D'autres, en revanche, peuvent être difficiles à déchiffrer.

Dans certains cas, on ignore tout de la langue originale dans laquelle le texte déchiffré a été écrit. Des symboles supplémentaires, sans signification particulière, peuvent également être insérés comme leurre pour tromper quiconque tenterait d'espionner le texte. Dans d'autres cas, plusieurs signes peuvent être utilisés pour représenter la même lettre.

Cela peut représenter un travail considérable, souvent ponctué d'essais et d'erreurs, pour déchiffrer même un petit texte. Il a fallu six mois à Cécile Pierrot, cryptologue à l'Institut national de recherche en informatique (INRIA) de Nancy, et à ses collègues pour percer progressivement le mystère d'une lettre vieille de 500 ans, écrite par Charles Quint , empereur du Saint-Empire romain germanique et roi d'Espagne, à l'aide de 120 symboles chiffrés différents répartis sur trois pages. (La lettre déchiffrée révélait que Charles Quint, l'un des hommes les plus puissants de son temps, était rongé par la peur d'un complot visant à l'assassiner. Le roi était terrifié à l'idée qu'un chef de guerre mercenaire italien au service du roi de France, François Ier, soit sur le point de l'assassiner.)

Avant de pouvoir commencer le décryptage, les chercheurs doivent d'abord convertir minutieusement un code manuscrit en un document numérique exploitable par un logiciel de décryptage. Une écriture illisible ou l'effacement de l'encre peuvent rendre cette tâche encore plus ardue.

Pierrot explique qu'il lui faut généralement une journée entière rien que pour transcrire une lettre de deux pages contenant des symboles qui lui sont inconnus.

Comment l'IA aide à déchiffrer rapidement les secrets

Mais l'IA commence à accélérer le processus. Michelle Waldispühl, professeure de linguistique allemande à l'Université d'Oslo en Norvège, et ses collègues, ont récemment utilisé une plateforme d'IA en ligne appelée Transkribus pour transcrire une lettre secrète écrite par le noble Sigismund Heusner von Wandersleben au chancelier suédois Axel Oxenstierna en 1637, au plus fort de la guerre de Trente Ans, un conflit religieux qui allait finalement faire des millions de victimes et ravager de vastes régions d'Europe.

Cet outil a été entraîné sur diverses langues, écritures et styles manuscrits couvrant plusieurs siècles. Une fois l'image d'un document téléchargée dans le système, l'IA détecte les blocs de texte et les lignes individuelles avant de numériser l'ensemble du texte caractère par caractère afin de le convertir en format numérique.

Malgré quelques corrections manuelles nécessaires, l'outil a très bien fonctionné sur la lettre de Von Wandersleben, car elle n'était que partiellement cryptée à l'aide de chiffres séparés par des points, écrits proprement et avec des espaces clairs entre eux. D'autres parties n'étaient pas codées et simplement écrites en caractères allemands du XVIIe siècle.

Les plateformes de transcription par IA existantes rencontrent souvent des difficultés lorsque les manuscrits sont cryptés avec des caractères inhabituels, tels que des signes inventés, des symboles astrologiques ou des chiffres écrits de manière singulière. Mais Megyesi, Waldispühl et leurs collègues développent leur propre outil d'IA pour convertir des textes historiques manuscrits comportant des symboles ou des écritures obscures en documents lisibles par machine, dans le cadre du projet multinational Descrypt.

« Nous développons des modèles plus adaptables, entraînés et testés sur un large éventail d'écritures, d'alphabets et de répertoires symboliques », explique Megyesi.

Une fois un document secret transcrit, le travail d'enquête peut commencer. Actuellement, les cryptologues utilisent souvent des logiciels informatiques non-IA spécialement conçus à cet effet. Ces logiciels exploitent des algorithmes pour tenter de déterminer le chiffrement utilisé et de le déchiffrer. Les chiffrements simples peuvent souvent être déchiffrés en analysant la fréquence d'utilisation des symboles et en les associant aux lettres de l'alphabet qui apparaissent à la même fréquence dans une langue. En anglais, par exemple, la lettre E est la plus fréquente, tandis que Z, Q et X sont les moins fréquentes.

Mais dans sa lettre écrite depuis le front pendant la guerre de Trente Ans, par exemple, Von Wandersleben a utilisé jusqu'à huit symboles différents pour représenter la lettre E. Il a donc fallu procéder par essais et erreurs, ainsi que faire appel à la connaissance du vieil allemand de Waldispühl , pour déchiffrer progressivement le code.

« Il y avait beaucoup d'échanges entre la machine et le validateur humain », explique Waldispühl. « Peut-être qu'un jour l'IA pourra le faire de manière totalement autonome. »

Derrière le code se cachaient les avertissements de Von Wandersleben concernant la menace que représentaient certaines factions des alliés protestants de la Suède pendant la guerre. Il confia à Oxenstierna avoir été contraint à des retraites stratégiques après avoir été informé d'un complot parmi ses alliés, notamment celui de Lord Franz Heinrich de Saxe.

Réouverture des codes d'affaires non résolues

Megyesi et son équipe étudient actuellement comment l'IA pourrait se passer complètement de la transcription, en analysant simplement les photos des pages pour déchiffrer les messages secrets. Ils ont récemment démontré l'efficacité de cette approche pour des codes simples, où chaque lettre est remplacée par un seul symbole.

Ils ont testé le système sur un manuscrit de 105 pages qu'ils avaient déjà déchiffré, connu sous le nom de chiffre de Copiale, qui détaille les rituels, les règles et les idéaux d'une société secrète allemande du XVIIIe siècle. En entraînant l'IA sur une écriture manuscrite générique, puis sur des images de lignes spécifiques du chiffre et le texte allemand correspondant une fois déchiffré, le système a pu déchiffrer avec précision des parties du texte qu'il n'avait jamais vues auparavant.

Un tel système pourrait s'avérer particulièrement utile lorsque le langage sous-jacent d'un chiffrement est inconnu.

« Cela ouvre des perspectives passionnantes pour les systèmes d'écriture rares et non standard », déclare Megyesi. « L'objectif ultime est de combiner la transcription et le déchiffrement en une seule étape. »

Waldispühl et ses collègues du projet Descrypt ont exploré d'anciennes archives à la recherche de scripts de chiffrement à compiler dans une base de données . Cette démarche pourrait s'avérer cruciale pour rassembler suffisamment de données afin d'entraîner une IA capable de décrypter des codes. Les vastes modèles de langage qui sous-tendent les chatbots d'IA tels que ChatGPT sont entraînés sur des milliards de mots extraits de livres, d'articles et de sites web. Trouver des quantités de données équivalentes pour le décryptage de codes représente un véritable défi.

Parmi les documents rassemblés figurent 400 cartes postales mystérieuses, écrites en écriture chiffrée, datant de la fin du XIXe siècle au début du XXe siècle. Les quelques fragments déchiffrés à ce jour révèlent que certaines d'entre elles sont des lettres d'amour écrites en allemand.

L'équipe de Megyesi a mis à profit ses travaux pour créer un outil d'IA de type chatbot qui combine transcription et décryptage en une seule étape. Ce chatbot associe des algorithmes de décryptage, entraînés sur des paires de caractères chiffrés et le texte qu'ils représentent, à de vastes modèles de langage, eux-mêmes entraînés sur des textes historiques de différentes époques, afin de fournir des indices sur le code. Des algorithmes de reconnaissance d'images, entraînés sur des annotations manuscrites, sont également intégrés. Cet outil d'IA pourra par ailleurs s'améliorer grâce aux corrections apportées par les experts qui l'utilisent.

L'idée serait que les chercheurs, voire le public, puissent fournir au chatbot un texte historique codé et qu'il en révèle le contenu.

Lorsque les chercheurs ont testé leur chatbot d'IA avec le chiffrement Borg, Megyesi et ses collègues ont constaté qu'il pouvait traduire et décoder un extrait de 500 symboles en un peu plus de 29 minutes. Il a même fourni une traduction en anglais. Il a également documenté le processus et expliqué la plausibilité de la solution. Ceci est important pour s'assurer que l'IA ne souffre pas d'hallucinations ou n'invente pas d'interprétations.

L'équipe a également testé récemment le système avec deux autres chiffrements qu'elle avait déjà décodés, représentant différentes périodes historiques, langues, types de codes secrets et niveaux de complexité. Le système les a déchiffrés rapidement lui aussi, démontrant ainsi sa capacité à traiter un large éventail de chiffrements.

« L'IA est surtout utile en matière d'échelle, de vitesse, de découverte de modèles et d'intégration des tâches », explique Megyesi.

Ces outils d'intelligence artificielle pourraient s'avérer essentiels pour déchiffrer des codes historiques restés jusqu'à présent indéchiffrables. Ils seront également d'une grande aide pour le déchiffrement de textes anciens écrits dans des alphabets aujourd'hui illisibles. Le disque de Phaistos, vieux de 4 000 ans et découvert en Crète, demeure par exemple indéchiffrable, tout comme le « linéaire A », une forme ancienne de la langue grecque.

« Ce qui me passionne, ce n'est pas seulement la possibilité de résoudre une énigme historique précise, mais aussi la perspective de créer des méthodes qui puissent aider les chercheurs dans de nombreux cas différents », déclare Megyesi.