Automatische Spracherkennung

Die automatische Spracherkennung (oft fälschlicherweise als Spracherkennung bezeichnet ) ist ein technischer Computer , der die von einem Mikrofon erfasste menschliche Stimme analysiert , um sie in Form eines von Maschinen lesbaren Textes zu transkribieren .

Spracherkennung sowie Sprachsynthese , Sprecheridentifikation oder Sprecherverifikation sind einige der Sprachverarbeitungstechniken . Diese Techniken ermöglichen es insbesondere, Mensch-Maschine-Schnittstellen (HMI) zu erzeugen, bei denen ein Teil der Interaktion über Sprache erfolgt: „  Sprachschnittstellen “.

Unter den vielen Anwendungen können wir zitieren Stimme Diktieranwendungen auf einem Computer , wo die Schwierigkeit liegt in der Größe des Vokabulars und die Länge der Sätze, sondern auch Telefon - Anwendungen des interaktiven Sprachserver - Typs , wo die Schwierigkeit liegt vielmehr in der Notwendigkeit , um eine Stimme unter variablen und oft lauten akustischen Bedingungen zu erkennen (Mobiltelefone an öffentlichen Orten).

Im Sprach- und Mensch-Maschine- Dialog erklären W. Minker und S. Bennacef, dass die automatische Spracherkennung ein komplexer Bereich ist, da es einen wichtigen Unterschied zwischen der formalen Sprache , die von Maschinen verstanden und verwendet wird, und der natürlichen Sprache gibt , die der Mensch verwendet . Die formale Sprache ist nach strengen syntaktischen Regeln und ohne Mehrdeutigkeit strukturiert . Umgekehrt können Wörter oder Sätze in der natürlichen Sprache verschiedene Bedeutungen haben, abhängig beispielsweise von der Intonation des Sprechers oder dem Kontext.

Forschungsgebiet

Die Spracherkennung kann auf viele Bereiche der Wissenschaft verknüpft werden: automatische Sprachverarbeitung , Linguistik , Informationstheorie , Signalverarbeitung , neuronale Netze , künstliche Intelligenz , usw.

Historisch

Die Arbeiten an der Spracherkennung aus der frühen XX - ten  Jahrhundert. Das erste System, das als Spracherkennung angesehen werden kann, stammt aus dem Jahr 1952.

Dieses elektronische System, das von Davis, Biddulph und Balashek in den Labors von Bell Labs entwickelt wurde, bestand im Wesentlichen aus Relais, und seine Leistung beschränkte sich auf die Erkennung einzelner Ziffern (siehe Referenz). In den 1970er Jahren nahm die Forschung mit der Arbeit von Jelinek bei IBM (1972-1993) erheblich zu . Die Firma Threshold Technologies wurde zum ersten Mal auf dem Markt in 1972 ein System der Anerkennung mit einer Kapazität von 32 Worten, die 100 VIP . Heute ist die Spracherkennung dank der zunehmenden Zahl von Bordsystemen ein schnell wachsendes Feld . Schnelle Entwicklung:

Grundprinzipien

Schritte

Ein aufgezeichneter und digitalisierter Satz wird an das RAP-Programm (Automatic Speech Recognition) übergeben. Im RAP-Formalismus ( ASR in Englisch) ist die Funktionsaufteilung wie folgt:

Technisches Material

Die Dokumentarfilmproduktion in einem GDD-System beginnt mit einer Sprachaufzeichnung ( digitales Diktat ). Es geht darum, die Stimme auf einem digitalen Medium aufzunehmen und wiederherzustellen. Die Aufnahme kann über verschiedene Aufnahmekanäle erfolgen: Mikrofone , Diktiergeräte , Smartphones ...

Die Rückerstattung für die Eingabe des Sekretariats oder der Überprüfung erfolgt über Lautsprecher oder Kopfhörer .

Die Models

Ein solches System basiert auf drei Hauptmodellen:

Die Kombination dieser drei Modelle ermöglicht es, die Wahrscheinlichkeit einer beliebigen Folge von Wörtern bei einem beobachteten Sprachsignal zu berechnen. Die Spracherkennung besteht darin, die Folge von Wörtern zu finden, die die höchste Wahrscheinlichkeit hat. Formal ist die Lösung des Problems ein Ergebnis von Wörtern , die den folgenden mathematischen Ausdruck maximieren .

Um diese Modelle für eine Anwendung zu kalibrieren, muss eine große Menge kommentierter Korpus verwendet werden. Der Korpus muss den Nutzungsbedingungen des Zielsystems entsprechen.

Einstufung

Spracherkennungssysteme können entlang mehrerer Achsen klassifiziert werden:

Die Größe des Wortschatzes und die Komplexität des Sprachmodells hängen direkt mit der Sprache und der Art der zu verarbeitenden Daten zusammen, von einigen Dutzend Wörtern für Sprachbefehle bis zu einigen hunderttausend Wörtern für eine Sprache wie Französisch oder Deutsche.

Performance

Die Rohleistung einer Spracherkennungsmaschine wird häufig in Fehlerraten von Wörtern ( Wortfehlerrate ) gemessen . Umgekehrt können wir die Erfolgsquote beurteilen. Diese Rate variiert stark in Abhängigkeit von der Art der zu transkribierenden Daten, dem Sprecher und den akustischen Bedingungen. Es kommt wenig auf die Sprache an. Hier ist seine formale Definition:

oder :

Hier sind einige durchschnittliche Ergebnisse für die Fehlerrate:

Literatur erwähnt

Spracherkennung wird in evozierte Der erste Kreis durch sowjetische Dissident Schriftsteller Alexander Solschenizyn , als Instrument der Repression in den Dienst der Stalin .

Die Spracherkennung wird auch in einem Kriminalroman erwähnt:

"Nichts mit unseren guten alten Berichten zu Hause zu tun, die ein Freund, der lange zwischen der Karriere eines Polizisten und der eines Hufschmieds gezögert hatte, mit einem kühlen Finger am Computer klimperte. Mit den Yankees sprechen Sie und es registriert, sauber und in Ordnung, ohne Löschung, Wiederholung oder Unangemessenheit von Begriffen. Jeder Schurke, der gelernt hat, an einem Spielautomaten zu lesen, fackelt Sie mit Geständnissen ab, mit denen das Geständnis eines Kindes des Jahrhunderts die Anweisungen für die Verwendung eines aus dem Rätoromanischen übersetzten insektiziden Pulvers durchgehen würde.

Um dieses Ding zu steuern, musste Princeton nicht verlassen werden. Alles, was der Bediener wichsen musste, abgesehen von seinem ziemlich buschigen, war, ein schlecht ausgesprochenes Wort zu wiederholen, und sogar das Gerät schlug eine Reihe von Synonymen vor, die der Bedeutung des Satzes entsprachen. Als ich die Maschine arbeiten sah, dachte ich an all meine Kollegen, die vor dem Kopfschmuck zitterten, dessen Prosa er verständlich machen würde. ""

Frédéric Dard alias San Antonio , Sand in Vaseline

In der Trilogie der Prophezeiungen von Pierre Bordage wird die Spracherkennung als einzige Schnittstelle zwischen Mensch und Maschine erwähnt . In dieser Trilogie wird ein Supercomputer vorgestellt , der DNA-PC .

Spracherkennungssoftware

Moderne Spracherkennungssysteme verwenden Sprachmodelle, die Gigabyte Speicher benötigen können, was sie insbesondere auf Mobilgeräten unpraktisch macht. Aus diesem Grund werden die meisten modernen Spracherkennungssysteme tatsächlich auf Remote-Servern gehostet und erfordern eine Internetverbindung und das Senden von Sprachinhalten über das Netzwerk.

Mozilla hat ein Community-Projekt gestartet, Common Voice , um Sprachproben in einer kostenlosen Datenbank zu sammeln und nicht proprietäre Spracherkennungs-Engines zu trainieren.

Anmerkungen und Referenzen

  1. (in) Leonard E. Baum, "  Eine Maximierungstechnik bei der statistischen Analyse probabilistischer Funktionen von Markov-Ketten  " , The Annals of Mathematical Statistics ,1970, p.  164 - 171.
  2. Peckham, J. (1993). Eine neue Generation gesprochener Dialogsysteme: Ergebnisse und Lehren aus dem SUNDIAL-Projekt. In der dritten europäischen Konferenz über Sprachkommunikation und Technologie.
  3. (in) "  Apple startet iPhone 4S iOS5 iCloud  " auf apple.com ,4. Oktober 2011(Zugriff auf den 21. August 2017 ) .
  4. "  Microsoft kündigt erhebliche Fortschritte bei der Spracherkennung an  " , auf actuia.com ,21. August 2017(Zugriff auf den 21. August 2017 ) .
  5. San Antonio , Sand in Vaseline , Paris, Schwarzer Fluss ,September 1998209  p. ( ISBN  2-265-06530-7 ) , p.  40-41.

Siehe auch

Literaturverzeichnis

Zum Thema passende Artikel

Externe Links

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">