Automatische Spracherkennung

Die automatische Spracherkennung (oft fälschlicherweise als Spracherkennung bezeichnet ) ist ein technischer Computer , der die von einem Mikrofon erfasste menschliche Stimme analysiert , um sie in Form eines von Maschinen lesbaren Textes zu transkribieren .

Spracherkennung sowie Sprachsynthese , Sprecheridentifikation oder Sprecherverifikation sind einige der Sprachverarbeitungstechniken . Diese Techniken ermöglichen es insbesondere, Mensch-Maschine-Schnittstellen (HMI) zu erzeugen, bei denen ein Teil der Interaktion über Sprache erfolgt: „ Sprachschnittstellen “.

Unter den vielen Anwendungen können wir zitieren Stimme Diktieranwendungen auf einem Computer , wo die Schwierigkeit liegt in der Größe des Vokabulars und die Länge der Sätze, sondern auch Telefon - Anwendungen des interaktiven Sprachserver - Typs , wo die Schwierigkeit liegt vielmehr in der Notwendigkeit , um eine Stimme unter variablen und oft lauten akustischen Bedingungen zu erkennen (Mobiltelefone an öffentlichen Orten).

Im Sprach- und Mensch-Maschine- Dialog erklären W. Minker und S. Bennacef, dass die automatische Spracherkennung ein komplexer Bereich ist, da es einen wichtigen Unterschied zwischen der formalen Sprache , die von Maschinen verstanden und verwendet wird, und der natürlichen Sprache gibt , die der Mensch verwendet . Die formale Sprache ist nach strengen syntaktischen Regeln und ohne Mehrdeutigkeit strukturiert . Umgekehrt können Wörter oder Sätze in der natürlichen Sprache verschiedene Bedeutungen haben, abhängig beispielsweise von der Intonation des Sprechers oder dem Kontext.

Forschungsgebiet

Die Spracherkennung kann auf viele Bereiche der Wissenschaft verknüpft werden: automatische Sprachverarbeitung , Linguistik , Informationstheorie , Signalverarbeitung , neuronale Netze , künstliche Intelligenz , usw.

Historisch

Die Arbeiten an der Spracherkennung aus der frühen XX - ten Jahrhundert. Das erste System, das als Spracherkennung angesehen werden kann, stammt aus dem Jahr 1952.

Dieses elektronische System, das von Davis, Biddulph und Balashek in den Labors von Bell Labs entwickelt wurde, bestand im Wesentlichen aus Relais, und seine Leistung beschränkte sich auf die Erkennung einzelner Ziffern (siehe Referenz). In den 1970er Jahren nahm die Forschung mit der Arbeit von Jelinek bei IBM (1972-1993) erheblich zu . Die Firma Threshold Technologies wurde zum ersten Mal auf dem Markt in 1972 ein System der Anerkennung mit einer Kapazität von 32 Worten, die 100 VIP . Heute ist die Spracherkennung dank der zunehmenden Zahl von Bordsystemen ein schnell wachsendes Feld . Schnelle Entwicklung:

1952: Erkennung der 10 Ziffern durch ein drahtgebundenes elektronisches Gerät.

1960: Verwendung numerischer Methoden.

1965: Erkennung von Phonemen in kontinuierlicher Sprache.

1968: Erkennung isolierter Wörter durch Systeme, die auf Großrechnern installiert sind (bis zu 500 Wörter).

1970: Leonard E. Baum entwickelt das Hidden-Markov-Modell, das in der Spracherkennung weit verbreitet ist.

1971: Start des ARPA-Projekts in den USA (15 Millionen US-Dollar), um die Machbarkeit eines automatischen kontinuierlichen Sprachverständnisses unter angemessenen Bedingungen zu testen.

1972: erstes Worterkennungsgerät auf dem Markt.

1978: Vermarktung eines Mikroprozessor-Erkennungssystems auf einer Leiterplatte.

1983: Weltpremiere der Sprachsteuerung an Bord eines Kampfflugzeugs in Frankreich.

1985: Vermarktung der ersten Erkennungssysteme mit mehreren tausend Wörtern.

1986: Start des japanischen ATR-Telefonprojekts mit maschineller Echtzeitübersetzung.

1993: Esprit-Projekt SUNDIAL.

1997: Die Firma Dragon bringt " NaturallySpeaking " auf den Markt , die erste Diktiersoftware.

2008: Google startet eine Internet-Suchanwendung, die eine Spracherkennungsfunktion implementiert

2011: Apple bietet die Siri- Anwendung auf seinen Handys an.

2017: Microsoft kündigt an, die Leistung der menschlichen Spracherkennung anzupassen.

Grundprinzipien

Schritte

Ein aufgezeichneter und digitalisierter Satz wird an das RAP-Programm (Automatic Speech Recognition) übergeben. Im RAP-Formalismus ( ASR in Englisch) ist die Funktionsaufteilung wie folgt:

Die akustische Verarbeitung ( Front-End in Englisch) ermöglicht es hauptsächlich, aus dem Sprachsignal ein kompaktes akustisches Bild in Form von akustischen Vektoren zu extrahieren, die Scheiben von 20 bis 30 ms Signal mit einem Schritt von 10 ms entsprechen ( Hamming-Fenstertechnik ). . Das Signal wird durch eine Frequenzanalysetechnik unter Verwendung der Fourier-Transformation (zum Beispiel MFCC, Mel-Frequenz- Cepstral- Koeffizienten) digitalisiert und parametrisiert .

Das maschinelle Lernen sendet eine Assoziation zwischen den elementaren Segmenten der Sprache und den lexikalischen Elementen. Diese Assoziation fordert statistische Modellierung unter anderem durch Hidden-Markov-Modelle (HMM, Hidden-Markov-Modelle) und / oder durch künstliche neuronale Netze (ANN, Artificial Neural Networks).

Die Dekodierung durch Verketten der zuvor erlernten Elementarmodelle stellt den wahrscheinlichsten Diskurs wieder her. Es handelt sich daher um einen zeitlichen Mustervergleich, der häufig vom dynamischen Zeitverzerrungsalgorithmus (DTW in Englisch) durchgeführt wird.

Technisches Material

Die Dokumentarfilmproduktion in einem GDD-System beginnt mit einer Sprachaufzeichnung ( digitales Diktat ). Es geht darum, die Stimme auf einem digitalen Medium aufzunehmen und wiederherzustellen. Die Aufnahme kann über verschiedene Aufnahmekanäle erfolgen: Mikrofone , Diktiergeräte , Smartphones ...

Die Rückerstattung für die Eingabe des Sekretariats oder der Überprüfung erfolgt über Lautsprecher oder Kopfhörer .

Die Models

Ein solches System basiert auf drei Hauptmodellen:

Sprachmodell: Dieses Modell gibt die Wahrscheinlichkeit jeder Wortfolge in der Zielsprache an. $P (W)$ $W.$
Aussprachemodell: Dieses Modell gibt für jede Wortfolge die möglichen Aussprachen mit ihren Wahrscheinlichkeiten an . $W.$ $H.$ $P (H | W)$
akustisch-phonetisches Modell: Dieses Modell schätzt die Wahrscheinlichkeit der beobachteten Folge von akustischen Vektoren bei einer möglichen Aussprache einer bestimmten Folge von Wörtern. $P (X | H)$ $X.$ $H.$

Die Kombination dieser drei Modelle ermöglicht es, die Wahrscheinlichkeit einer beliebigen Folge von Wörtern bei einem beobachteten Sprachsignal zu berechnen. Die Spracherkennung besteht darin, die Folge von Wörtern zu finden, die die höchste Wahrscheinlichkeit hat. Formal ist die Lösung des Problems ein Ergebnis von Wörtern , die den folgenden mathematischen Ausdruck maximieren . $W.$ $\ Textstil P (W) \ Summe _ {H} P (H | W) P (X | H)$

Um diese Modelle für eine Anwendung zu kalibrieren, muss eine große Menge kommentierter Korpus verwendet werden. Der Korpus muss den Nutzungsbedingungen des Zielsystems entsprechen.

Einstufung

Spracherkennungssysteme können entlang mehrerer Achsen klassifiziert werden:

die Art des Signals: verrauschtes Signal oder nicht verrauschtes Signal (z. B. Headset-Mikrofon mit Rauschunterdrückung), Telefonsignal (Festnetz oder Mobiltelefon) oder Breitband, komprimiertes oder unkomprimiertes Signal usw.
die Art des akustischen Modells: Ein-Sprecher-Modell ( z. B. Sprachdiktat), Mehr -Sprecher-Modell ( sprecherunabhängig in Englisch);
die Art der Aufzeichnungen: Textdiktat, Sprachbefehl, Mensch-Maschine-Dialog, telefonische Nachricht, Radio, Fernsehen, Podcast usw. ;;
Sprache.

Die Größe des Wortschatzes und die Komplexität des Sprachmodells hängen direkt mit der Sprache und der Art der zu verarbeitenden Daten zusammen, von einigen Dutzend Wörtern für Sprachbefehle bis zu einigen hunderttausend Wörtern für eine Sprache wie Französisch oder Deutsche.

Performance

Die Rohleistung einer Spracherkennungsmaschine wird häufig in Fehlerraten von Wörtern ( Wortfehlerrate ) gemessen . Umgekehrt können wir die Erfolgsquote beurteilen. Diese Rate variiert stark in Abhängigkeit von der Art der zu transkribierenden Daten, dem Sprecher und den akustischen Bedingungen. Es kommt wenig auf die Sprache an. Hier ist seine formale Definition:

${\ mathit {WER}} = {\ frac {S + E + I} {N}}$

oder :

$S.$ ist die Anzahl der Substitutionen;
$E.$ ist die Anzahl der Entscheidungen;
$ich$ ist die Anzahl der Einfügungen;
$NICHT$ ist die Anzahl der Wörter in der Referenztranskription (exakte Transkription).

Hier sind einige durchschnittliche Ergebnisse für die Fehlerrate:

Gelesene Texte (Sprachdiktat, Ein-Sprecher-System): 5%
Radio- und Fernsehzeitungen: 10%
informelle Telefongespräche: 40%

Literatur erwähnt

Spracherkennung wird in evozierte Der erste Kreis durch sowjetische Dissident Schriftsteller Alexander Solschenizyn , als Instrument der Repression in den Dienst der Stalin .

Die Spracherkennung wird auch in einem Kriminalroman erwähnt:

"Nichts mit unseren guten alten Berichten zu Hause zu tun, die ein Freund, der lange zwischen der Karriere eines Polizisten und der eines Hufschmieds gezögert hatte, mit einem kühlen Finger am Computer klimperte. Mit den Yankees sprechen Sie und es registriert, sauber und in Ordnung, ohne Löschung, Wiederholung oder Unangemessenheit von Begriffen. Jeder Schurke, der gelernt hat, an einem Spielautomaten zu lesen, fackelt Sie mit Geständnissen ab, mit denen das Geständnis eines Kindes des Jahrhunderts die Anweisungen für die Verwendung eines aus dem Rätoromanischen übersetzten insektiziden Pulvers durchgehen würde.

Um dieses Ding zu steuern, musste Princeton nicht verlassen werden. Alles, was der Bediener wichsen musste, abgesehen von seinem ziemlich buschigen, war, ein schlecht ausgesprochenes Wort zu wiederholen, und sogar das Gerät schlug eine Reihe von Synonymen vor, die der Bedeutung des Satzes entsprachen. Als ich die Maschine arbeiten sah, dachte ich an all meine Kollegen, die vor dem Kopfschmuck zitterten, dessen Prosa er verständlich machen würde. ""

- Frédéric Dard alias San Antonio , Sand in Vaseline

In der Trilogie der Prophezeiungen von Pierre Bordage wird die Spracherkennung als einzige Schnittstelle zwischen Mensch und Maschine erwähnt . In dieser Trilogie wird ein Supercomputer vorgestellt , der DNA-PC .

Spracherkennungssoftware

Moderne Spracherkennungssysteme verwenden Sprachmodelle, die Gigabyte Speicher benötigen können, was sie insbesondere auf Mobilgeräten unpraktisch macht. Aus diesem Grund werden die meisten modernen Spracherkennungssysteme tatsächlich auf Remote-Servern gehostet und erfordern eine Internetverbindung und das Senden von Sprachinhalten über das Netzwerk.

Cortana ( Microsoft )
Siri ( Apple )
Google Now ( Google )
Alexa ( Amazon )
Vocapia Research (VoxSigma Suite)
Vocon Hybrid und Dragon (jeweils diktiert durch Grammatik und freies Diktat von Nuance Communications ).

Mozilla hat ein Community-Projekt gestartet, Common Voice , um Sprachproben in einer kostenlosen Datenbank zu sammeln und nicht proprietäre Spracherkennungs-Engines zu trainieren.

Anmerkungen und Referenzen

(in) Leonard E. Baum, " Eine Maximierungstechnik bei der statistischen Analyse probabilistischer Funktionen von Markov-Ketten " , The Annals of Mathematical Statistics ,1970, p. 164 - 171.
Peckham, J. (1993). Eine neue Generation gesprochener Dialogsysteme: Ergebnisse und Lehren aus dem SUNDIAL-Projekt. In der dritten europäischen Konferenz über Sprachkommunikation und Technologie.
(in) " Apple startet iPhone 4S iOS5 iCloud " auf apple.com ,4. Oktober 2011(Zugriff auf den 21. August 2017 ) .
" Microsoft kündigt erhebliche Fortschritte bei der Spracherkennung an " , auf actuia.com ,21. August 2017(Zugriff auf den 21. August 2017 ) .
San Antonio , Sand in Vaseline , Paris, Schwarzer Fluss ,September 1998209 p. ( ISBN 2-265-06530-7 ) , p. 40-41.

Siehe auch

Literaturverzeichnis

Sprachverarbeitung , von René Boite, Hervé Bourlard, Thierry Dutoit, Joel Hancq und Henri Leich, Presses polytechniques et universitaire romandes, 2000.
Spracherkennung: Automatische Verarbeitung gesprochener Sprache 2. Hermes Science - Lavoisier (IC2-Vertrag, Computer- und Informationssysteme), J. Mariani (Hrsg.), 2002
Jean-Paul Haton , Automatische Spracherkennung: Vom Signal zur Interpretation , Dunod Paris, 2006
Minker Wolfgang, Bennacef Samir (2000). Sprach- und Mensch-Maschine-Dialog , Editions Eyrolles und CNRS EDITIONS, Marsat, 212 Seiten.

Zum Thema passende Artikel

Externe Links

(de) [PDF] Automatische Erkennung gesprochener Ziffern , historischer Artikel über das erste Spracherkennungssystem, 1952
(de) "Ruhe in Erbsen: Der unerkannte Tod der Spracherkennung" ,Mai 2010
(de) Glossar zur Spracherkennung
Sprachidentifikation in der Forensik