Der Turing-Test ist ein vorgeschlagener Test für künstliche Intelligenz , der auf der Fähigkeit einer Maschine basiert, menschliche Gespräche nachzuahmen . Beschrieben von Alan Turing in seiner Publikation Computing Machinery and Intelligence in 1950 , beinhaltet dieser Test einen Menschen in einem blinden verbalen Konfrontation mit einem Putting - Computer und einem anderen Menschen.
Wenn die Person , die Gespräche initiieren kann nicht die des Gesprächspartners sagen , ein Computer ist, die Computer - Software kann in Betracht gezogen werden , den Test bestanden haben. Dies impliziert, dass der Computer und der Mensch versuchen werden, ein semantisches menschliches Erscheinungsbild zu haben .
Um die Einfachheit und Universalität des Tests zu erhalten, beschränkt sich das Gespräch auf Textnachrichten zwischen den Protagonisten.
Der Test beinhaltet ein Nachahmungsspiel, bei dem ein Mann und eine Frau in getrennte Räume gehen und die Gäste versuchen, mit den beiden Protagonisten zu plaudern, indem sie Fragen aufschreiben und die ihnen zurückgesandten Antworten lesen. In diesem Spiel versuchen der Mann und die Frau, die Gäste davon zu überzeugen, dass sie beide Frauen sind.
Ursprünglich hat Alan Turing diesen Test entwickelt, um seine existenzielle Frage zu beantworten: "Kann eine Maschine denken?" », eine konkretere Interpretation seiner Frage.
Eine interessante Idee seines Testvorschlags ist, dass Antworten innerhalb definierter Zeitintervalle gegeben werden müssen. Er stellt sich vor, dass dies notwendig ist, damit der Beobachter keine Schlussfolgerung daraus ziehen kann, dass ein Computer insbesondere auf mathematische Fragen schneller antworten kann als ein Mensch.
In Turings Veröffentlichung wird der Begriff "Imitationsspiel" verwendet, um auf seinen Versuchsvorschlag zu verweisen. Der von "Turing Test" scheint erstmals 1968 von dem britischen Schriftsteller Arthur C. Clarke in seinen Science-Fiction-Kurzgeschichten formuliert worden zu sein, auf denen 2001 der Film A Space Odyssey basierte .
Alan Turing sagte voraus, dass Computer eines Tages in der Lage sein würden, den Test zu bestehen. Er schätzte, dass im Jahr 2000 Maschinen mit 128 MB Speicher in der Lage sein würden, während eines 5-minütigen Tests etwa 30% der menschlichen Richter zu täuschen. Er sagte voraus, dass die Menschen damals den Begriff "intelligente Maschine" nicht als widersprüchlich ansehen würden. Er sagte auch voraus, dass der Lernerwerb von Computern auch für den Bau von Hochleistungscomputern wichtig sein würde, eine Methode, die heute tatsächlich von zeitgenössischen Forschern der künstlichen Intelligenz beispielsweise durch maschinelles Lernen verwendet wird .
Einige Chat - Programme einfach wie ELIZA haben menschliche täuschen Gläubigen zu anderen Menschen zu sprechen, mit informellen Ausdrücke, wie dialogueur OELiza. Aber ein solcher "Erfolg" bedeutet nicht, den Turing-Test zu bestehen. Meistens hat die Person keinen Grund zu der Annahme, dass sie nicht mit einem Menschen spricht, während im Fall des Turing-Tests der Richter aktiv versucht, die Natur der Entität zu bestimmen, mit der er sich unterhält. Die genannten Fälle betreffen insbesondere das IRC , wo es üblich ist, sich auf ein sinnloses und bedeutungsloses Gespräch einzulassen. Darüber hinaus unterhalten sich viele IRC-Teilnehmer in einer anderen Sprache als ihrer Muttersprache, meistens Englisch, was es noch einfacher macht, von einem Bot dazu gebracht zu werden, zu denken, dass sie nicht alles verstehen oder nicht ausreichend über die Existenz von Bots.
Der Loebner-Preis ist ein jährlicher Wettbewerb für das Programm , das dem Bestehen des Turing-Tests am nächsten kommt. ALICE hat diese Auszeichnung mehrfach gewonnen. Allerdings hat noch keines der vorgestellten Programme den Turing-Test bestanden.
Im September 2011, in Guwahati , Indien, gelang es dem Cleverbot- Programm , die Mehrheit der Teilnehmer und Beobachter von der Prüfung seiner Menschlichkeit zu überzeugen. Die Gespräche dauerten jeweils 4 Minuten. Fünfzehn Teilnehmer unterhielten sich mit Cleverbot und fünfzehn weitere mit Menschen. Die Öffentlichkeit konnte die Gespräche verfolgen und dann mit den Teilnehmern abstimmen. Es gab 1.334 Stimmen. Cleverbot galt zu 59 % als Mensch und zu 63 % als menschlicher Gesprächspartner.
Das 7. Juni 2014, behauptet die englische University of Reading , dass der Turing-Test von einem russischen Informatikerteam gewonnen wurde, das es schaffte, 33 % der Juroren (über die von Turing festgelegte Grenze von 30 %) zu überzeugen, dass ein Mensch hinter der Maschine steckte. Diese Behauptung wird sofort angefochten, auch wenn ein echter Fortschritt allgemein anerkannt wird. Kritik an dem Computerprogramm ist, dass es sich um eine Simulation eines Menschen mit der Intelligenz eines 13-jährigen, der schlecht Englisch spricht, was die Qualität des Programms verringert, um die Richter zu überzeugen, und dass es einen undurchsichtigen Test anwendet Protokoll.
Alan Turing selbst hat viele Einwände gegen den Test vorgeschlagen und in seinem ersten Beitrag beantwortet:
In einem Artikel aus dem Jahr 1980 hinterfragt der Philosoph John Searle die Leistungsfähigkeit des Turing-Tests und beruft sich dabei auf die Beschränkung der Computer auf die Syntax . Die für das menschliche Denken charakteristische Semantik könne , so der Autor, nicht auf die Manipulation von Symbolen nach bestimmten syntaktischen Regeln reduziert werden, die für die Maschine charakteristisch zu sein scheint.
Zur Veranschaulichung stellt er das Gedankenexperiment des chinesischen Raums vor : Angenommen, Sie befinden sich in einem Raum mit chinesischen Symbolen sowie einer Bedienungsanleitung mit Regeln vom Typ „Frage und Antwort“. Wenn Ihnen ein Chinesischsprechender außerhalb des Raumes eine Nachricht auf Papier schickt, können Sie dank des Handbuchs eine adäquate Antwort geben und der anderen Person den Eindruck vermitteln, ihre Sprache zu sprechen, ohne ihre Sprache sprechen zu können . ist notwendig, damit Sie es verstehen.
Der Turing-Test basiert auf der Annahme, dass der Mensch die Intelligenz einer Maschine beurteilen kann, indem er ihr Verhalten mit dem menschlichen Verhalten vergleicht. Jedes Element dieser Annahme wurde in Frage gestellt: das Urteil des Menschen, der Wert des Vergleichs, der nur das Verhalten vergleichen soll, und der Wert des Vergleichs mit einem Menschen. Aus diesen und anderen Gründen haben einige Forscher der künstlichen Intelligenz die Nützlichkeit der Studie in Frage gestellt.
Menschliche Intelligenz versus Intelligenz im AllgemeinenDieser Test bestimmt nicht direkt, ob sich der Computer intelligent verhält, er prüft nur, ob sich der Computer wie ein Mensch verhält. Da intelligentes Verhalten und menschliches Verhalten nicht genau dasselbe sind, misst der Test Intelligenz auf zwei Arten nicht genau:
Dieser letztere Einwand wurde von The Economist in einem Artikel mit dem Titel " Artificial Stupidity (en) " erhoben, der kurz nach dem ersten Loebner-Wettbewerb im Jahr 1992 veröffentlicht wurde. Der Artikel stellte fest, dass der Sieg des Gewinners des ersten Loebner-Wettbewerbs auf die weniger zum Teil auf seine Fähigkeit, "menschliche Tippfehler nachzuahmen". Turing selbst hat vorgeschlagen, dass Programme Fehler in ihre Ausgabe einfügen sollten, um bessere "Spieler" im Spiel zu sein.
Echte Intelligenz versus simulierte IntelligenzEs testet nur die Art und Weise, wie das Subjekt handelt – das äußere Verhalten der Maschine. In dieser Hinsicht geht sie von einer behavioristischen oder funktionalistischen Sichtweise von Intelligenz aus. Das Beispiel von ELIZA legt nahe , dass eine Maschine, die den Test besteht, in der Lage sein könnte, menschliches Gesprächsverhalten zu simulieren, indem sie einer einfachen (aber großen) Liste mechanischer Regeln folgt, ohne nachzudenken, automatisch .
John Searle hatte argumentiert, dass externes Verhalten nicht verwendet werden kann, um festzustellen, ob eine Maschine „wirklich“ denkt oder einfach „den Akt des Denkens simuliert“.
Turing nahm diese Kritik in seinem ursprünglichen Artikel vorweg, in dem er schrieb:
„Ich möchte nicht den Eindruck erwecken, dass ich glaube, dass Bewusstsein kein Geheimnis ist. Es gibt zum Beispiel eine Art Paradoxon, das mit jedem Versuch, es zu lokalisieren, verbunden ist. Aber ich glaube nicht, dass diese Rätsel unbedingt gelöst werden müssen, bevor wir die Frage beantworten können, die uns in diesem Artikel beschäftigt. "
- Alan Turing, ( Turing 1950 ).
Naivität der Vernehmer und der anthropomorphe TrugschlussDer Turing-Test geht davon aus, dass der Vernehmer ausgereift genug ist, um den Unterschied zwischen dem Verhalten einer Maschine und dem eines Menschen zu bestimmen, obwohl Kritiker argumentieren, dass dies keine Fähigkeit ist, die die meisten Menschen haben. Die genauen Fähigkeiten und Kenntnisse, die der Vernehmer benötigt, werden von Turing in seiner Beschreibung des Aufsatzes nicht angegeben, er verwendet jedoch den Begriff "durchschnittlicher Vernehmer": "Der durchschnittliche Vernehmer wäre nicht älter als 70 Jahre. Prozent Chance, das Richtige zu machen Identifizierung nach fünf Minuten Befragung “. Shah und Warwick (2009C) zeigen, dass Experten getäuscht werden und dass die Strategie des Vernehmers, „Macht“ oder „Solidarität“, die korrekte Identifizierung beeinflusst (die zweite ist effektiver).
Ein Dialogschreiber wie ELIZA hat naiven Menschen immer wieder vorgegaukelt, sie stünden in Kommunikation mit Menschen. In diesen Fällen ist sich der "Interrogator" nicht einmal der Möglichkeit bewusst, dass er mit einem Computer interagiert. Um erfolgreich als Mensch erscheinen zu können, braucht die Maschine nicht alle Informationen, sondern nur eine oberflächliche Ähnlichkeit mit menschlichem Verhalten. Die meisten Leute sind sich einig, dass dies kein "echter" Turing-Test ist, der in "uninformierten" Fällen wie diesem gemacht wurde.
In frühen Versionen des Loebner-Preises wurden "unausgereifte" Vernehmungsgeräte verwendet, und sie ließen sich leicht von Maschinen täuschen. Seit 2004 setzen die Organisatoren des Loebner-Preises unter den Vernehmern Philosophen, Informatiker und Journalisten ein. Einige von ihnen wurden von Maschinen getäuscht.
Michael Shermer weist darauf hin, dass Menschen sich systematisch dafür entscheiden, nichtmenschliche Objekte bei jeder Gelegenheit als menschlich zu betrachten, ein Fehler, der auch als anthropomorpher Fehlschluss bekannt ist: Sie sprechen mit ihrem Auto, schreiben Willen und Absichten Naturkräften zu ( zum Beispiel " Natur verabscheut ein Vakuum") und verehren die Sonne als Mensch oder als mit Intelligenz begabtes Wesen. Wenn der Turing-Test auf religiöse Gegenstände angewendet wird, argumentiert Shermer, dass unbelebte Statuen, Felsen und Orte den Test im Laufe der Geschichte immer bis zu einem gewissen Grad bestanden haben. Diese menschliche Neigung zum Anthropomorphismus senkt die Messlatte für den Turing-Test, es sei denn, die Vernehmer sind speziell darauf geschult, dies zu vermeiden.
Unrealismus und Nutzlosigkeit: Turing-Test und KI-ForschungForscher der künstlichen Intelligenz argumentieren, dass der Versuch, den Turing-Test zu bestehen, nur eine Ablenkung ist, anstatt sich auf fruchtbare Forschung zu konzentrieren. Tatsächlich ist der Turing-Test kein aktiver Schwerpunkt vieler akademischer oder kommerzieller Bemühungen; wie Stuart Russell und Peter Norvig schreiben: "KI-Forscher haben dem Bestehen des Turing-Tests wenig Aufmerksamkeit geschenkt." Es gibt verschiedene Gründe :
Erstens gibt es einfachere Möglichkeiten, ihre Programme zu testen. Ein Großteil der aktuellen Forschung in KI-bezogenen Bereichen zielt auf kleine, aber konkrete Ziele ab, wie zum Beispiel automatisierte Terminplanung , Objekterkennung oder Logistik . Um die Intelligenz von Programmen zu testen, die Probleme lösen, geben Forscher der Künstlichen Intelligenz ihnen die Aufgabe, diese direkt auszuführen, anstatt den Umweg zu gehen, die Frage in einem mit Computern und Menschen gefüllten Chat zu stellen .
Zweitens ist die Erschaffung lebensähnlicher Simulationen von Menschen ein schwieriges Problem an sich, das nicht gelöst werden muss, um die grundlegenden Ziele der KI-Forschung zu erreichen. Glaubwürdige künstliche menschliche Charaktere können in einem Kunstwerk, einem Videospiel oder einer ausgefallenen Benutzeroberfläche interessant sein , aber das ist nicht Teil der Wissenschaft der Entwicklung intelligenter Maschinen, der Wissenschaft von Maschinen, die Probleme im Zusammenhang mit Intelligenz lösen. Russell und Norvig schlagen eine Analogie zur Geschichte der Luftfahrt vor : Flugzeuge werden durch ihren Flug geprüft, nicht durch Vergleich mit Vögeln. Aviation Prüfung wird nicht definiert , um den Zweck ihres Faches als Rennmaschinen zu erfinden , die so fliegen Tauben wie , dass die Tauben sich irren würde.
Turing beabsichtigte nie, seinen Test als Methode zur Messung der Intelligenz von KI-Programmen zu verwenden; er wollte ein klares und verständliches Beispiel geben, um zur Diskussion über die Philosophie der Künstlichen Intelligenz beizutragen . So verwundert es nicht, dass der Turing-Test so wenig Einfluss auf die Forschung zur Künstlichen Intelligenz hatte. Die Philosophie der KI , schrieb John McCarthy , „wird wahrscheinlich keinen größeren Einfluss auf die Praxis der KI-Forschung haben, als die Wissenschaftsphilosophie im Allgemeinen auf die wissenschaftliche Praxis hat“.
Der Ausdruck „Herzlichen Glückwunsch! Du hast gerade den Turing-Test durchgefallen…“ ist eine Schülerbeleidigung in der IT-Welt. Dieser Ausdruck wird gesagt, wenn eine Person gerade etwas besonders Dummes gesagt hat und nicht einmal die Intelligenz einer Maschine zu haben scheint.