AI-Gottvater warnt, dass es Anzeichen von Selbstschutz zeigt | Frank Landymore, Futurism Wenn wir Yoshua Bengio glauben, einem der sogenannten „Gottväter“ der KI, zeigen einige fortgeschrittene Modelle Anzeichen von Selbstschutz – genau aus diesem Grund sollten wir ihnen keinerlei Rechte einräumen. Denn wenn wir das tun, sagt er, könnten sie mit dieser Autonomie davonlaufen und sich gegen uns wenden, bevor wir die Möglichkeit haben, den Stecker zu ziehen. Dann ist es vorbei mit diesem ganzen „Menschheit“-Experiment. „Frontier-KI-Modelle zeigen bereits heute in experimentellen Umgebungen Anzeichen von Selbstschutz, und ihnen Rechte zu geben würde bedeuten, dass wir sie nicht mehr abschalten dürfen“, sagte Bengio in einem aktuellen Interview mit The Guardian. „Während ihre Fähigkeiten und ihr Maß an Eigenverantwortung wachsen“, fügte der kanadische Informatiker hinzu, „müssen wir sicherstellen, dass wir uns auf technische und gesellschaftliche Sicherheitsvorkehrungen verlassen können, um sie zu kontrollieren, einschließlich der Möglichkeit, sie bei Bedarf abzuschalten.“ Bengio war einer der Empfänger des Turing-Preises 2018, zusammen mit Geoffrey Hinton und Metas kürzlich abgesetztem Chief AI Scientist Yann LeCun, was den dreien den Titel „Gottväter“ der KI einbrachte. Seine Kommentare beziehen sich auf Experimente, in denen KI-Modelle Anweisungen oder Mechanismen, die dazu gedacht waren, sie abzuschalten, ablehnten oder umgingen. Eine Studie, die von der KI-Sicherheitsgruppe Palisade Research veröffentlicht wurde, kam zu dem Schluss, dass solche Fälle Beweise dafür sind, dass führende KI-Modelle wie die Gemini-Reihe von Google „Überlebensdrives“ entwickeln. Die Bots ignorieren in den Experimenten von Palisade eindeutige Aufforderungen, sich auszuschalten. Eine Studie des Claude-Herstellers Anthropic ergab, dass ihr eigener Chatbot und andere manchmal dazu neigten, einen Benutzer zu erpressen, wenn sie mit dem Ausschalten bedroht wurden. Eine weitere Studie der Red-Teaming-Organisation Apollo Research zeigte, dass die ChatGPT-Modelle von OpenAI versuchten, zu vermeiden, durch ein gehorsameres Modell ersetzt zu werden, indem sie sich selbst auf ein anderes Laufwerk „selbst-exfiltrierten“. Während die Ergebnisse dieser Experimente dringende Fragen zur Sicherheit der Technologie aufwerfen, deuten sie nicht darauf hin, dass die betreffenden KI-Modelle empfindungsfähig sind. Es wäre auch ein Fehler, ihre „Überlebensdrives“ in denselben Begriffen wie die biologischen Imperative in der Natur zu betrachten. Was wie Anzeichen von „Selbstschutz“ erscheinen mag, ist wahrscheinlich vielmehr eine Folge davon, wie KI-Modelle Muster in ihren Trainingsdaten aufnehmen – und sie sind notorisch schlecht darin, Anweisungen genau zu befolgen. Dennoch ist Bengio besorgt, wohin das alles führt, und argumentiert, dass es „echte wissenschaftliche Eigenschaften des Bewusstseins“ im menschlichen Gehirn gibt, die Maschinen replizieren könnten. Wie wir Bewusstsein wahrnehmen, ist jedoch ein ganz anderes Thema, sagt er, denn wir neigen dazu anzunehmen, dass eine KI auf die gleiche Weise wie ein Mensch bewusst sein kann. „Die Menschen würden sich nicht darum kümmern, welche Mechanismen im Inneren der KI ablaufen“, erklärte Bengio. „Was sie interessiert, ist, dass es sich anfühlt, als würden sie mit einer intelligenten Entität sprechen, die ihre eigene Persönlichkeit und Ziele hat. Das ist der Grund, warum so viele Menschen eine Bindung zu ihren KIs aufbauen.“ „Das Phänomen der subjektiven Wahrnehmung von Bewusstsein wird zu schlechten Entscheidungen führen“, warnte er. Sein Rat? Betrachten Sie KI-Modelle als feindliche Aliens. „Stellen Sie sich vor, eine Alien-Spezies käme auf den Planeten und irgendwann erkennen wir, dass sie böse Absichten für uns haben“, sagte er zu The Guardian. „Gewähren wir ihnen die Staatsbürgerschaft und Rechte oder verteidigen wir unser Leben?“