• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Les chercheurs cachent des informations en texte brut

    Quelqu'un utilisant FontCode fournirait un message secret et un document texte porteur. FontCode convertit le message secret en une chaîne de bits (ASCII ou Unicode) puis en une séquence d'entiers. Chaque entier est affecté à un bloc de cinq lettres dans le texte normal où les emplacements numérotés de chaque lettre totalisent l'entier. Crédit :Changxi Zheng/Columbia Engineering

    Les informaticiens de Columbia Engineering ont inventé FontCode, une nouvelle façon d'intégrer des informations cachées dans un texte ordinaire en changeant imperceptiblement, ou perturbant, les formes des polices dans le texte. FontCode crée des perturbations de police, en les utilisant pour encoder un message qui pourra ensuite être décodé pour récupérer le message. La méthode fonctionne avec la plupart des polices et, contrairement aux autres méthodes de texte et de document qui masquent les informations intégrées, fonctionne avec la plupart des types de documents, même en conservant les informations cachées lorsque le document est imprimé sur papier ou converti dans un autre type de fichier. L'article sera présenté au SIGGRAPH à Vancouver, Colombie britannique, 12-16 août.

    « Bien qu'il existe des applications évidentes pour l'espionnage, nous pensons que FontCode a des utilisations encore plus pratiques pour les entreprises qui souhaitent empêcher la falsification de documents ou protéger les droits d'auteur, et pour les détaillants et les artistes souhaitant intégrer des codes QR et d'autres métadonnées sans modifier l'apparence ou la mise en page d'un document, " dit Changxi Zheng, professeur agrégé d'informatique et auteur principal de l'article.

    Zheng a créé FontCode avec ses étudiants Chang Xiao (étudiant au doctorat) et Cheng Zhang MS'17 (maintenant étudiant au doctorat à l'UC Irvine) en tant que méthode stéganographique de texte pouvant intégrer du texte, métadonnées, une URL, ou une signature numérique dans un document texte ou une image, qu'elles soient stockées numériquement ou imprimées sur papier. Il fonctionne avec les familles de polices courantes, comme Times Roman, Helvétique, et Calibri, et est compatible avec la plupart des programmes de traitement de texte, y compris Word et FrameMaker, ainsi que des programmes d'édition d'images et de dessin, tels que Photoshop et Illustrator. Puisque chaque lettre peut être perturbée, la quantité d'informations transmises secrètement n'est limitée que par la longueur du texte normal. Les informations sont encodées à l'aide de perturbations de police infimes—changement de la largeur du trait, réglage de la hauteur des bloqueurs et des descendeurs, ou resserrer ou desserrer les courbes dans les empattements et les bols de lettres comme o, p, et B.

    "Changer n'importe quelle lettre, signe de ponctuation, ou le symbole sous une forme légèrement différente vous permet de changer le sens du document, " dit Xiao, l'auteur principal du journal. "Cette information cachée, bien que non visible pour les humains, est lisible par machine tout comme les codes-barres et les codes QR sont instantanément lisibles par les ordinateurs. Cependant, contrairement aux codes-barres et QR codes, FontCode ne gâche pas l'esthétique visuelle du matériel imprimé, et sa présence peut rester secrète."

    Les données masquées à l'aide de FontCode peuvent être extrêmement difficiles à détecter. Même si un attaquant détecte des changements de police entre deux textes, ce qui est hautement improbable étant donné la subtilité des perturbations, il n'est tout simplement pas pratique d'analyser chaque fichier entrant et sortant au sein d'une entreprise.

    Par ailleurs, FontCode non seulement intègre, mais peut également crypter les messages. Alors que les perturbations sont stockées dans un emplacement numéroté dans un livre de codes, leurs emplacements ne sont pas fixes. Les personnes souhaitant communiquer via des documents cryptés se mettraient d'accord sur une clé privée qui spécifie les emplacements particuliers, ou commander, de perturbations dans le livre de codes.

    "Le cryptage n'est qu'un niveau de protection de secours au cas où un attaquant peut détecter l'utilisation de changements de police pour transmettre des informations secrètes, " dit Zheng. " C'est très difficile de voir les changements, ils sont donc très difficiles à détecter, ce qui fait de FontCode une technique très puissante pour faire passer les données au-delà des défenses existantes."

    FontCode n'est pas la première technologie à masquer un message dans du texte - des programmes existent pour masquer les messages dans les fichiers PDF et Word ou pour redimensionner les espaces blancs pour indiquer un 0 ou un 1 - mais, disent les chercheurs, il est le premier à être indépendant du document et à conserver les informations secrètes même lorsqu'un document ou une image avec du texte (PNG, JPG) est imprimé ou converti dans un autre type de fichier. Cela signifie qu'un fichier FrameMaker ou Word peut être converti en PDF, ou un JPEG peut être converti en PNG, le tout sans perdre les informations secrètes.

    Pour utiliser FontCode, vous fourniriez un message secret et un document texte porteur. FontCode convertit le message secret en une chaîne de bits (ASCII ou Unicode) puis en une séquence d'entiers. Chaque entier est affecté à un bloc de cinq lettres dans le texte normal où les emplacements numérotés du livre de codes de chaque lettre s'additionnent à l'entier.

    La récupération des messages cachés est le processus inverse. A partir d'un fichier numérique ou d'une photographie prise avec un smartphone, FontCode fait correspondre chaque lettre perturbée à la perturbation d'origine dans le livre de codes pour reconstruire le message d'origine.

    La correspondance est effectuée à l'aide de réseaux de neurones convolutifs (CNN). La reconnaissance des polices vectorielles (telles que celles stockées au format PDF ou créées avec des programmes comme Illustrator) est simple, car les définitions de forme et de chemin sont lisibles par ordinateur. Cependant, c'est une autre histoire pour PNG, IMG, et autres polices rastérisées (ou pixelisées), où l'éclairage change, différentes perspectives de caméra, ou du bruit ou du flou peuvent masquer une partie de la lettre et empêcher une reconnaissance facile.

    Alors que les CNN sont formés pour prendre en compte de telles distorsions, des erreurs de reconnaissance continueront de se produire, et un défi clé pour les chercheurs était de s'assurer qu'un message pouvait toujours être récupéré face à de telles erreurs. La redondance est un moyen évident de récupérer les informations perdues, mais cela ne fonctionne pas bien avec le texte car les lettres et les symboles redondants sont faciles à repérer.

    Au lieu, les chercheurs se sont tournés vers le théorème des restes chinois vieux de 1700 ans, qui identifie un nombre inconnu de son reste après qu'il a été divisé par plusieurs diviseurs différents. Le théorème a été utilisé pour reconstruire les informations manquantes dans d'autres domaines; dans FontCode, les chercheurs l'utilisent pour récupérer le message d'origine même lorsque toutes les lettres ne sont pas correctement reconnues.

    "Imaginez avoir trois variables inconnues, " dit Zheng. "Avec trois équations linéaires, vous devriez être capable de résoudre les trois. Si vous augmentez le nombre d'équations de trois à cinq, vous pouvez résoudre les trois inconnues tant que vous connaissez trois des cinq équations."

    En utilisant la théorie des restes chinois, les chercheurs ont démontré qu'ils pouvaient récupérer des messages même lorsque 25 % des perturbations des lettres n'étaient pas reconnues. Théoriquement, le taux d'erreur pourrait dépasser 25 %.

    Les auteurs, qui ont déposé un brevet auprès de Columbia Technology Ventures, envisagez d'étendre FontCode à d'autres langues et jeux de caractères, y compris le chinois.

    "Nous sommes enthousiasmés par le large éventail d'applications pour FontCode, " dit Zheng, "à partir d'un logiciel de gestion de documents, aux QR codes invisibles, à la protection des documents juridiques. FontCode pourrait changer la donne."

    L'étude s'intitule « FontCode : Intégrer des informations dans des documents texte à l'aide de la perturbation de glyphes ».


    © Science https://fr.scienceaq.com