Shannon Entropy

Die Shannon-Entropie aufgrund von Claude Shannon ist eine mathematische Funktion, die intuitiv der Informationsmenge entspricht, die von einer Informationsquelle enthalten oder geliefert wird. Diese Quelle kann ein in einer bestimmten Sprache geschriebener Text, ein elektrisches Signal oder sogar eine beliebige Computerdatei (Sammlung von Bytes) sein.

Aus Sicht eines Empfängers ist die Entropie (oder die Unsicherheit darüber, was die Quelle emittiert) umso größer, je mehr unterschiedliche Informationen die Quelle ausgibt. Wenn also eine Quelle immer dasselbe Symbol sendet, beispielsweise den Buchstaben 'a', ist ihre Entropie Null , d. H. Minimal. In der Tat wird einem Empfänger, der nur die Übertragungsstatistik der Quelle kennt, versichert, dass das nächste Symbol ein "a" sein wird. Wenn andererseits die Quelle die Hälfte der Zeit ein 'a' und die andere Hälfte ein 'b' sendet, ist der Empfänger unsicher, welchen nächsten Brief er empfangen soll. Die Entropie der Quelle ist in diesem Fall daher ungleich Null (positiv) und repräsentiert quantitativ die Unsicherheit, die über die von der Quelle ausgehenden Informationen herrscht. Die Entropie gibt dann die Informationsmenge an, die der Empfänger benötigt, um eindeutig zu bestimmen, was die Quelle gesendet hat. Je mehr Informationen der Empfänger über die gesendete Nachricht erhält, desto größer ist die Entropie (Unsicherheit) in Bezug auf diese Nachricht. Insbesondere, je redundanter die Quelle ist, desto weniger Informationen enthält sie. In Abwesenheit besonderer Einschränkungen ist die Entropie für eine Quelle maximal, deren Symbole alle gleich wahrscheinlich sind.

Historisch

In den frühen 1940er Jahren wurde die Telekommunikation vom analogen Modus dominiert . Töne und Bilder wurden in elektrische Signale umgewandelt, deren Amplitude und / oder Frequenz kontinuierliche Funktionen des Eingangssignals sind. Während der Übertragung hinzugefügtes Rauschen führte zu einer Verschlechterung des empfangenen Signals. Der Archetyp für diese Art von Lärm ist das Zischen für Radio und Schnee für das Fernsehen. Heute werden Signale auch in digitaler Form codiert . Während der Übertragung hinzugefügtes Rauschen führt zu einem Fehler in den übertragenen digitalen Daten, der sich beispielsweise durch das Auftreten von aberranten Pixeln auf einem Fernsehbild äußert. In beiden Fällen möchte man einerseits die maximale Datenmenge in kürzester Zeit auf einem bestimmten Übertragungskanal übertragen, andererseits möchte man in der Lage sein, die Änderungen aufgrund von Rauschen innerhalb einer bestimmten Grenze zu korrigieren.

1948 formalisierte Claude Shannon, ein Elektrotechniker bei Bell Laboratories , mathematisch die statistische Natur von "verlorenen Informationen" in Telefonleitungssignalen. Zu diesem Zweck entwickelte er das allgemeine Konzept der Informationsentropie, das in der Informationstheorie von grundlegender Bedeutung ist und es ihm ermöglichte, die maximale Informationsmenge zu bewerten, die in einem bestimmten Kanal übertragen werden konnte. Er zeigte auch, dass es unter Verwendung einer angemessenen digitalen Codierungsstrategie möglich war, die Informationen so zu übertragen, dass der Empfänger die ursprüngliche verrauschte Nachricht ohne Informationsverlust wiederherstellen konnte, wobei die Informationen zur Übertragungsgeschwindigkeit verringert wurden.

Zunächst scheint Shannon die enge Beziehung zwischen ihrer neuen Messung und früheren Arbeiten in der Thermodynamik nicht zu kennen . Der Begriff Entropie wurde vom Mathematiker John von Neumann vorgeschlagen, weil dieser Begriff dem in der statistischen Physik bereits als Entropie bekannten Begriff ähnelte. Er hätte hinzugefügt, dass dieser Begriff außerdem ausreichend missverstanden wurde, um in jeder Debatte triumphieren zu können.

In 1957 , wird Edwin Thompson Jaynes zeigt die formale Verbindung zwischen der bestehenden makroskopischen Entropie eingeführt durch Clausius 1847, die mikroskopische von eingeführt Gibbs , und der mathematischen Entropie von Shannon. Diese Entdeckung wurde von Myron Tribus als "eine Revolution, die unbemerkt blieb" beschrieben.

Die Berechnung der Entropie einer Nachrichtenquelle gibt ein Maß für die Mindestinformation, die beibehalten werden muss, um diese Daten verlustfrei darzustellen. Im speziellen Fall der Dateikomprimierung in der Informatik gibt die Entropie allgemein die minimale Anzahl von Bits an , die eine komprimierte Datei erreichen kann. In der Praxis wird die Entropie des Bildes oder Tons weiter verringert, indem für den Menschen nicht wahrnehmbare Details entfernt werden, z. B. beim Komprimieren von Tönen im MP3-Format, Bildern im JPEG-Format oder Videos im MPEG-Format.

Formale Definition

Für eine Quelle, die eine diskrete Zufallsvariable X ist, die n Symbole umfasst, wobei jedes Symbol x i eine Wahrscheinlichkeit P i des Auftretens aufweist, ist die Entropie H der Quelle X definiert als:

wobei die mathematische Erwartung und der Logarithmus zur Basis b bezeichnet . Im Allgemeinen wird ein Basis-2-Logarithmus verwendet, da die Entropie dann Bit- / Symboleinheiten hat. Die Symbole stellen die möglichen Realisierungen des Zufallsvariablen X . In diesem Fall können wir H ( X ) als die Anzahl der Ja / Nein-Fragen interpretieren , die der Empfänger durchschnittlich an der Quelle stellen muss, oder als die Menge an Informationen in Bits, die die Quelle dem Empfänger dafür bereitstellen muss, damit dieser dies kann eindeutig den Wert bestimmen X .

Wenn wir zwei Zufallsvariablen X und Y haben , definieren wir auf analoge Weise die Größe H ( X , Y ) der Variablen X und Y , die als gemeinsame Entropie bezeichnet wird  :

sowie die bedingte Entropie von Y in Bezug auf X  :

Begründung für die Formel

In dem Fall, in dem wir eine Anzahl N von Symbolen der Form mit n ganzen Zahlen haben und in dem die N Symbole gleich wahrscheinlich sind, genügt es, n Fragen zu beantworten, die dichotomisch vorgehen , um das von der Quelle gesendete Symbol zu bestimmen. In diesem Fall ist die im Symbol enthaltene Informationsmenge genau . Es ist natürlich, diese Formel für den Fall beizubehalten, dass N keine Potenz von 2 ist. Wenn beispielsweise die Symbole die Buchstaben des Alphabets sowie das Leerzeichen (dh 27 Symbole) sind, sind die in einem Symbol enthaltenen Informationen ein Zwischenwert zwischen 4 Bits (Ermöglichen der Codierung von 16 Symbolen) und 5 Bits (Ermöglichen der Codierung von 32 Symbolen). Diese Definition der Entropie im gleichwahrscheinlichen Fall ist vergleichbar mit der in der Thermodynamik von Boltzmann gegebenen .

Nehmen wir nun an, dass die N Symbole in n Unterkategorien verteilt sind , wobei die i- te Kategorie aus N i Symbolen besteht (mit daher ). Beispielsweise können die zuvor betrachteten 27 Zeichen in drei Kategorien unterteilt werden: Vokale, Konsonanten und Leerzeichen. Sei X die Zufallsvariable, die die Kategorie des betrachteten Symbols angibt. Stellen wir die Wahrscheinlichkeit ein, dass das betrachtete Symbol zur i- ten Kategorie gehört. Die Bestimmung des Symbols kann in zwei Schritten erfolgen, zuerst der seiner Kategorie X, wobei eine Informationsmenge H (X) erforderlich ist, und dann innerhalb seiner Kategorie die Bestimmung des Symbols. Wenn die Kategorie, zu der das Symbol gehört, die i- te ist, erfordert dieser letzte Schritt eine Informationsmenge von gleich . Diese Eventualität tritt mit einer Wahrscheinlichkeit P i auf , der durchschnittlichen Informationsmenge zur Bestimmung des Symbols, das seine Kategorie kennt . Die Gesamtmenge an Informationen zur Bestimmung des Symbols ist daher die Summe der Menge H (X) zur Bestimmung seiner Kategorie und der Durchschnittsmenge zur Bestimmung des Symbols innerhalb seiner Kategorie. Also haben wir :

deshalb :

Zum Beispiel wird die Informationsmenge von 4,75 Bits zum Bestimmen eines Zeichens unter 27 in H (X) = 0,98 Bits unterteilt, um seine Kategorie (Vokal, Konsonant, Leerzeichen) zu bestimmen, zu der durchschnittlich 3,77 Bits hinzugefügt werden, um das Zeichen darin zu bestimmen seine Kategorie.

Wir können a posteriori die Konsistenz dieser Definition mit der Additivitätseigenschaft der Entropie überprüfen. Sei zwei unabhängige Zufallsvariablen und . Es wird erwartet, dass . Wenn beispielsweise (X, Y) die Position eines Objekts in einer Tabelle darstellt (X ist die Zeilennummer und Y die Spaltennummer), ist H (X, Y) die Informationsmenge, die zur Bestimmung dieser Position benötigt wird. Es ist die Summe der Informationsmenge H (X) zur Bestimmung der Zeilennummer und der Informationsmenge H (Y) zur Bestimmung der Spaltennummer. Die Wahrscheinlichkeit des kartesischen Produkts dieser Zufallsvariablen ist jedoch gegeben durch:

was danach als abgekürzt wird . Wir haben dann:

wie erwartet.

Einfache Beispiele

Zufällige Auslosung in einer Wahlurne

Stellen Sie sich eine Urne vor, die eine rote Kugel, eine blaue Kugel, eine gelbe Kugel und eine grüne Kugel enthält. Wir schießen zufällig einen Ball. Es geht darum, die gezeichnete Farbe zu kommunizieren. Da kein Draw privilegiert ist, ist die Entropie maximal, hier gleich . Wenn vereinbart wird, dass die Farben jeweils 00, 01, 10, 11 codiert sind, entspricht die im Ausdruck enthaltene Information effektiv 2 Bits.

Wenn jedoch eine bestimmte Farbe stärker vertreten ist als die anderen, verringert sich die Entropie geringfügig. Angenommen, die Urne enthält 4 rote, 2 blaue, 1 gelbe und 1 grüne Kugeln. Die Entropie beträgt dann 7/4. Tatsächlich,

Wenn die Farben jeweils 0 für Rot, 10 für Blau, 110 für Gelb und 111 für Grün codiert sind, belegen die Informationen über die gezeichnete Farbe jedes zweite Mal 1 Bit, jedes vierte Mal 2 Bit und alle vier Male 3 Bit oder ein Durchschnitt von 7/4 Bits, entsprechend der berechneten Entropie.

Entropie eines Textes

Stellen Sie sich einen Text vor, der aus einer Folge von Buchstaben und Leerzeichen besteht, d. H. 27 Zeichen. Wenn diese Zeichen gleich wahrscheinlich sind , ist die Entropie, die jedem Zeichen zugeordnet ist , was bedeutet, dass es zwischen 4 und 5 Bits dauert, um ein Zeichen zu übertragen. Wenn der Text jedoch in einer natürlichen Sprache wie Französisch ausgedrückt wird, da die Häufigkeit einiger Zeichen nicht sehr wichtig ist (z. B. 'w'), während andere sehr häufig sind (z. B. 'e'), ist die Entropie jedes Zeichens ist nicht so hoch. Unter Berücksichtigung der Häufigkeit jedes Zeichens ergibt eine Schätzung, die Shannon für die englische Sprache vorgenommen hat, einen Entropiewert von etwa 4,03.

Die Entropie ist sogar noch geringer, weil es Korrelationen zwischen einem Charakter und dem oder sogar denen gibt, die ihm vorausgehen. Es wurden Experimente durchgeführt, um diese Entropie empirisch abzuschätzen. Zum Beispiel hat A den Text und bittet B, ihn Buchstabe für Buchstabe (einschließlich Leerzeichen) zu erraten. Wenn B den Buchstaben richtig errät, zählen wir 1 und wenn B falsch ist, zählen wir 4,75 (entsprechend der oben angegebenen Entropie eines gleichwahrscheinlichen Zeichens). Wir erhalten somit experimentell eine Entropie von 1,93 Bits pro Buchstabe.

Schließlich führt das Zipfsche Gesetz (empirisch) zu Überlegungen derselben Ordnung, diesmal für Worte. Gemäß der Arbeit Knowledge of Electronics von 1955 repräsentiert ein Buchstabe in einer bestimmten Sprache in der Praxis 1,1- Bit-Symbole (in dieser Arbeit verwendete Terminologie). Diese Redundanz erklärt die Leichtigkeit, mit der wir mehrere Chiffren mittlerer Komplexität brechen können, wenn wir ihren Algorithmus haben, auch ohne den Verschlüsselungsschlüssel zu kennen. Es ist auch das, was es ermöglicht, den Inhalt eines gesprochenen oder geschriebenen Textes zu finden, von dem ein großer Teil aus dem einen oder anderen Grund geändert wird.

Eigenschaften

Hier sind einige wichtige Eigenschaften von Shannons Entropie:

Demonstration

Die logarithmische Funktion, die konkav ist, wird oben durch eine Linie begrenzt, die sie tangiert. Bestimmtes :

Wir haben also:

deshalb ;

Demonstration

Wir wenden die Gibbs-Ungleichung mit der einheitlichen Wahrscheinlichkeit an , die sich ergibt, wenn  :

Praktischer Nutzen

Die Shannon-Entropie wird verwendet, um eine Quelle unter Verwendung der minimal möglichen Bits ohne Informationsverlust zu digitalisieren . Wenn der Informationsübertragungskanal eine Kapazität von C Bits pro Sekunde hat und wenn die von der Quelle gesendeten Symbole eine H-Entropie aufweisen, beträgt die maximale Symbolübertragungsgeschwindigkeit C / H-Symbole pro Sekunde. Diese Geschwindigkeit kann mit Mitteln so genau wie gewünscht angefahren werden eines geeigneten Symbolcodierungssystems.

Wenn außerdem Rauschen die Übertragung stört, nimmt die Kapazität C des Übertragungskanals ab. In der Tat müssen zusätzliche Informationen von der Quelle gesendet werden, damit der Empfänger die Nachricht fehlerfrei rekonstruieren kann. Diese Information nimmt einen zusätzlichen Platz ein, der die Kapazität C verringert. Sei p die Wahrscheinlichkeit, dass ein Bit 0 auf 1 geändert wird und umgekehrt. Die von der Quelle gesendeten zusätzlichen Informationen müssen es dem Empfänger ermöglichen, zu wissen, ob das gesendete Bit falsch ist (mit der Wahrscheinlichkeit p ) oder ob es korrekt ist (mit der Wahrscheinlichkeit 1 - p ). Die entsprechende Informationsmenge pro Bit beträgt . Die Übertragungskapazität wird dann . Es ist Null, wenn p = 1/2 ist, ein Fall, der einer vollständig verschlüsselten Nachricht entspricht.

Shannons Entropie ermöglicht es auch, die minimale Anzahl von Bits zu quantifizieren, auf denen eine Datei codiert werden kann, und so die Grenzen zu messen, die durch verlustfreie Komprimierungsalgorithmen wie die Huffman-Codierung und später durch den LZH- Algorithmus erreicht werden können . Es wird auch in anderen Bereichen verwendet, beispielsweise zur Auswahl des besten Blickwinkels eines dreidimensionalen Objekts .

Shannons Entropie wird auch in der Bildgebung (medizinisch oder räumlich) auf der Grundlage der Theorie der gegenseitigen Information (MI) verwendet. Es ist insbesondere möglich, zwei verschiedene Bilder übereinander zu registrieren, indem die Entropie der beiden Bilder minimiert wird. In der Praxis ist es möglich, die Scans eines Patienten A mit einem Referenzpatienten B zu vergleichen. Schließlich ermöglicht es die Shannon-Entropie in der Genetik, die Teile der DNA, die die meisten Informationen enthalten, auf einem Chromosom zu lokalisieren.

Literaturverzeichnis

Anmerkungen und Referenzen

  1. (in) Claude E. Shannon , "  Eine mathematische Theorie der Kommunikation  " , Bell System Technical Journal , vol.  Flug. 27,Juli und Oktober 1948, p.  379-423 und 623-656 ( online lesen )
  2. M. Tribus, EC McIrvine, "Energie und Information", Scientific American, 224 (September 1971).
  3. Die Referenz befindet sich in (en) Myron Tribus , "  Einige Beobachtungen zu Systemen, Wahrscheinlichkeit, Entropie und Management  ".
  4. Didier Dacunha-Castelle, Marie Duflo, Wahrscheinlichkeiten und Statistiken , tI, Masson (1982), S.19
  5. Die Codes sind so, dass keiner von ihnen ein Präfix eines anderen ist, so dass eine Folge von Überweisungen ohne Mehrdeutigkeit an den Empfänger übermittelt werden kann.
  6. Léon Brillouin, Die Wissenschaft und Theorie der Information , Masson (1959), herausgegeben von Gabay (1988), p.  23
  7. Léon Brillouin, Die Wissenschaft und Theorie der Information , Masson (1959), herausgegeben von Gabay (1988), p.  24
  8. Die Messung hängt von der Kultur des Empfängers ab. Ein Satz wie "Wir bringen die nächste Runde schnell zusammen" bietet Mathematikern eine höhere Erfolgsquote als Nicht-Mathematikern. Ebenso erklärt Brillouin, wenn wir andere sehr spezielle Vokabeln wie medizinisches, finanzielles, politisches usw. verwenden.
  9. oder seine mathematische Verallgemeinerung, das Mandelbrotsche Gesetz
  10. Editions du Tambourinaire, 1955
  11. (en) P.-P. Vàzquez, M. Feixas, M. Sbert, W. Heidrich, Ansichtspunktauswahl unter Verwendung der Ansichtspunktentropie , Proceedings of the Vision Modeling and Visualization Conference, 273-280, 2001.

Siehe auch

Zum Thema passende Artikel

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">