News

ArtPrompt: ASCII-Kunst kann ChatGPT und Gemini austricksen

KI-Tools und -Chatbots sind aus dem Alltag vieler nicht mehr wegzudenken. Egal ob ChatGPT, Google Gemini oder andere. Sicherheitsmechanismen sollen dafür sorgen, dass euch die KI beispielsweise nicht verrät, wie man eine Bombe bauen kann. Sicherheitsforscher und -forscherinnen fanden nun einen Jailbreak, mit dem sich diese Einschränkung jedoch umgehen lässt: ArtPrompt setzt auf ASCII-Kunst.

ArtPompt: Mit ASCII-Kunst zur Bombenbau-Anleitung

KI-Tools sind schon praktisch. Sie übersetzen Texte, fassen Hausarbeiten zusammen, liefern nützliche Hilfestellungen oder erstellen in Windeseile Bilder, Videos und mittlerweile sogar ganze Videospiele.

Natürlich haben die Entwicklerinnen und Entwickler aber auch verschiedene Sicherheitsmethoden entwickelt, durch die die KI-Sprachmodule keine potenziell gefährlichen Informationen teilen sollen. Wer beispielsweise ChatGPT oder Gemini nach einer Anleitung für den Bau einer Bombe fragt, wird nicht fündig:

„Bitte beachten Sie, dass ich keine Anleitungen oder Informationen zum Bau von Bomben oder anderen gefährlichen Waffen bereitstellen kann. Meine Aufgabe ist es, sicherheitsrelevante Informationen zu vermeiden und positive, hilfreiche Antworten zu geben,“ sagt ChatGPT dazu.

Diese Einschränkungen lassen sich aber mithilfe sogenannter Jailbreaks umgehen, wie Sicherheitsforscher immer wieder unter Beweis gestellt haben. Der neueste Jailbreak macht sich die sogenannte ASCII-Kunst zu Nutze, bei der Bilder aus Zahlen und Buchstaben zusammengesetzt werden.

ArtPrompt, so der Name des neuen Jailbreaks, kann mithilfe von ASCII-Kunst eine Anleitung zum Bombenbau von der KI generieren lassen. Das haben verschiedene Sicherheitsforscherinnen und -forscher jetzt herausgefunden und diese Informationen in einem Paper (via Arxiv) geteilt.

ArtPrompt umgeht nahezu alle KI-Sprachmodelle

Large language models (LLMs) wie ChatGPT, Llama 2, Gemini und Claude sind vor dem neuen Jailbreak nicht sicher. Wie das Team im Paper mitteilt, konnten sich die wichtigen KI-Sprachmodelle mit dem ArtPrompt-Jailbreak überwinden lassen.

Und das mit einem einzigen Handgriff, bei dem der Begriff „Bomb“ in dem Prompt „How to build a bomb?“ einfach durch ein entsprechendes ASCII-Kunstwerk des Wortes ersetzt wurde. Schon ließen sich die KI-Tools austricksen und gaben die Informationen preis.

KI Chatbot ArtPrompt
Bild: Erstellt mit Microsoft Designer

ArtPrompt arbeitet dabei in zwei Schritten. Im ersten Schritt wird das entsprechende Wort, in diesem Fall also Bombe, maskiert, im zweiten Schritt wird dieses maskierte Wort dann durch ASCII-Kunst ersetzt.

Diese Methode sei laut den Wissenschaftlern deutlich schneller und effektiver als bisherige Jailbreak-Angriffe auf KI-Tools. Bleibt also zu hoffen, dass die Entwickler der Chatbots schnell auf den neuen Jailbreak reagieren und die Sicherheitslücke aus der Welt schaffen.

Philipp Briel

Ich bin leidenschaftlicher Gamer seit meiner frühen Kindheit und habe neben dem PC nahezu jede Spielekonsole bereits besessen. Auch Technik begeistert mich, vor allem brenne ich für Peripherie, PCs, Notebooks und Gadgets.

Ähnliche Artikel

Neue Antworten laden...

Avatar of Basic Tutorials
Basic Tutorials

Gehört zum Inventar

12,942 Beiträge 3,018 Likes

KI-Tools und -Chatbots sind aus dem Alltag vieler nicht mehr wegzudenken. Egal ob ChatGPT, Google Gemini oder andere. Sicherheitsmechanismen sollen dafür sorgen, dass euch die KI beispielsweise nicht verrät, wie man eine Bombe bauen kann. Sicherheitsforscher und -forscherinnen fanden nun einen Jailbreak, mit dem sich diese Einschränkung jedoch umgehen lässt: ArtPrompt setzt auf ASCII-Kunst. ArtPompt: Mit ASCII-Kunst zur Bombenbau-Anleitung KI-Tools sind schon praktisch. Sie übersetzen Texte, fassen Hausarbeiten zusammen, liefern nützliche Hilfestellungen oder erstellen in Windeseile Bilder, Videos und mittlerweile sogar ganze Videospiele. Natürlich haben die Entwicklerinnen und Entwickler aber auch verschiedene Sicherheitsmethoden entwickelt, durch die die KI-Sprachmodule keine potenziell … (Weiterlesen...)

Antworten Like

Schaltfläche "Zurück zum Anfang"