TF-IDF

Die TF-IDF ( Term Frequency-Reverse Document Frequency ) ist eine Gewichtungsmethode, die häufig in der Informationsforschung und insbesondere im Text Mining verwendet wird . Diese statistische Messung ermöglicht es, die Bedeutung eines in einem Dokument enthaltenen Begriffs im Verhältnis zu einer Sammlung oder einem Korpus zu bewerten . Das Gewicht nimmt proportional zur Anzahl der Vorkommen des Wortes im Dokument zu. Es variiert auch je nach Häufigkeit des Wortes im Korpus. Varianten der Originalformel werden häufig in Suchmaschinen verwendet, um die Relevanz eines Dokuments anhand der Suchkriterien des Benutzers zu bewerten.

Einführung

Die a posteriori theoretische Begründung dieses Gewichtungsschemas basiert auf der empirischen Beobachtung der Häufigkeit von Wörtern in einem Text, der durch das Zipf-Gesetz gegeben ist . Wenn eine Abfrage den Begriff T enthält , reagiert ein Dokument eher darauf, wenn es diesen Begriff enthält: Die Häufigkeit des Begriffs innerhalb des Dokuments (TF) ist hoch. Wenn der Begriff T selbst im Korpus selbst sehr häufig vorkommt, das heißt, dass er in vielen Dokumenten (wie den definierten Artikeln - le, la, les ) vorhanden ist, ist er in der Tat nicht sehr diskriminierend. Aus diesem Grund schlägt das Diagramm vor, die Relevanz eines Begriffs entsprechend seiner Seltenheit innerhalb des Korpus zu erhöhen: Die Häufigkeit des Begriffs im Korpus (IDF) ist hoch. Das Vorhandensein eines seltenen Abfragebegriffs im Inhalt eines Dokuments erhöht somit dessen "Punktzahl" .

Formale Definition

Laufzeithäufigkeit

Die "rohe" Häufigkeit eines Begriffs ist einfach die Anzahl der Vorkommen dieses Begriffs in dem betrachteten Dokument (man spricht von "Häufigkeit" durch Sprachmissbrauch). Wir können diese Rohfrequenz wählen, um die Häufigkeit eines Begriffs auszudrücken.

Varianten wurden vorgeschlagen. Eine einfachere Wahl, die als "binär" bezeichnet wird, besteht darin, 1 zu setzen, wenn der Begriff im Dokument erscheint, und 0, wenn dies nicht der Fall ist. Im Gegensatz dazu können wir die Rohfrequenz logarithmisch normalisieren, um die Abweichungen zu dämpfen. Eine übliche Normalisierung zur Berücksichtigung der Dokumentlänge ist die Normalisierung um die maximale Häufigkeit von Rohdokumenten.

TF-Varianten

Gewichtungsschema	TF-Formel
binär	${\ displaystyle {0,1}}$
Rohfrequenz	${\ displaystyle f_ {t, d}}$
logarithmische Normalisierung	${\ displaystyle \ log (1 + f_ {t, d})}$
Normalisierung "0,5" um die max	${\ displaystyle 0.5 + 0.5 \ cdot {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}$
Normalisierung durch die max	${\ displaystyle K + (1-K) {\ frac {f_ {t, d}} {\ max _ {\ {t '\ in d \}} {f_ {t', d}}}}$

Dokumenthäufigkeit umkehren

Die inverse Dokumenthäufigkeit ist ein Maß für die Bedeutung des Begriffs im gesamten Korpus. Im TF-IDF-Schema sollen die weniger häufigen Begriffe, die als diskriminierender angesehen werden, stärker gewichtet werden. Es besteht darin, den Logarithmus (in Basis 10 oder in Basis 2) der Umkehrung des Anteils der Dokumente im Korpus zu berechnen, die den Begriff enthalten:

${\ mathrm {idf_ {i}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{i}} \ in d _ {{j}} \ } |}}$

oder :

$| D | ~$ : Gesamtzahl der Dokumente im Korpus;
$| \ {d _ {{j}}: t _ {{i}} \ in d _ {{j}} \} |$ : Anzahl der Dokumente, in denen der Begriff erscheint (dh ). $t _ {{i}}$ $n _ {{i, j}} \ neq 0$

Berechnung von TF-IDF

Schließlich wird das Gewicht durch Multiplizieren der beiden Messungen erhalten:

${\ mathrm {tfidf _ {{i, j}}}} = {\ mathrm {tf _ {{i, j}}} \ cdot {\ mathrm {idf _ {{i}}}}$

Beispiel

Korpus (nach Werken von Friedrich Gottlieb Klopstock )

Dokument 1	Dokument 2	Dokument 3
Sein Name wird durch den Hain gefeiert , das zitterte, und der Bach , dass Murmeln, Winde vorherrschen , bis die Himmels Bogen, der Bogen der Gnade und Trost , dass seine Hand in die Wolken erreicht.	Am Ende des Steinbruchs konnten wir kaum zwei Ziele unterscheiden: Eichen beschatteten eines, Palmen ragten im Schein des Abends um das andere.	Ah! das gute Wetter meiner poetischen Werke! die schönen Tage, die ich in deiner Nähe verbracht habe! Der erste, unerschöpflich vor Freude, Frieden und Freiheit; Letzteres, erfüllt von einer Melancholie, die auch ihre Reize hatte.

Das Beispiel bezieht sich auf Dokument 1 (dh ) und der analysierte Begriff lautet „wer“ (dh = wer). Interpunktion und Apostroph werden ignoriert. $d_1$ $t_1$

Berechnung von TF

TF (t) = Anzahl der Auftritte des Begriffs t im Dokument / Gesamtzahl der Begriffe im Dokument

{\ mathrm {tf _ {{1,1}}}} = {\ frac {n _ {{1,1}}} {\ sum _ {k} n _ {{k, 1}}} = { \ frac {2} {38}}

Berechnungsdetails: Die meisten der Begriffe erscheinen einmal (21 Begriffe), Bogen , de , und , le , les , Par und die erscheinen zweimal (7 Begriffe) und l erscheint 3 - mal (1 Term). Der Nenner ist daher 21 * 1 + 7 * 2 + 1 * 3 = 38. Diese Summe entspricht der Anzahl der Wörter im Dokument.

Berechnung der IDF

Der Begriff "wer" erscheint nicht im zweiten Dokument. So :

{\ mathrm {idf_ {1}}} = \ log {\ frac {| D |} {| \ {d _ {{j}}: t _ {{1}} \ in d _ {{j}} \ } |}} = \ log {\ frac {3} {2}}

Endgewicht

Wir erhalten :

{\ mathrm {tfidf _ {{1,1}}}} = {\ frac {2} {38}} \ cdot \ log {{\ frac {3} {2}}} \ ca. 0 {{,}} 0092

Für andere Dokumente:

{\ mathrm {tfidf _ {{1,2}}}} = 0 \ cdot \ log {{\ frac {3} {2}}} = 0

{\ mathrm {tfidf _ {{1,3}}}} = {\ frac {1} {40}} \ cdot \ log {{\ frac {3} {2}}} \ ca. 0 {{,}} 0044

Das erste Dokument scheint daher „das relevanteste“ zu sein.

Anwendungen

In Informationsrecherche , sobald eine Reihe von möglichen Dokumenten hat als in der Lage zu reagieren , auf eine Anfrage identifiziert worden ist , ist es eine Sache von ihnen in der Reihenfolge ihrer Relevanz zu bestellen. Das Gewicht tf-idf wird dann üblicherweise verwendet, um die Beschreibung der Dokumente in einem Vektormodell festzulegen , wobei die Ähnlichkeit mit einem Kosinusabstand zwischen dem die Anforderung darstellenden Vektor und jedem der für die potentiellen Dokumente repräsentativen Vektoren erhalten wird. Obwohl in den 70er Jahren ihren Sitz, die Variante Okapi BM25 wird immer noch als (Anfang XXI th Jahrhundert) als eines der Verfahren in dem Stand der Technik auf diesem Gebiet.

Literaturverzeichnis

(en) Karen Spärck Jones , " Eine statistische Interpretation der Begriffsspezifität und ihrer Anwendung beim Abrufen " , Journal of Documentation , vol. 28, n o 1,1972, p. 11–21 ( DOI 10.1108 / eb026526 , online lesen )
(en) Gerard Salton und MJ McGill, Einführung in die moderne Informationsbeschaffung ,1983[ Detail der Ausgaben ]

Anmerkungen und Referenzen

" Vektormodelle " auf benhur.teluq.ca (abgerufen am 5. November 2018 )
Texte von Friedrich Gottlieb Klopstock auf Wikisource ( Sternbilder , die zwei Musen und To Schmied, Ode geschrieben während einer gefährlichen Krankheit ).

Siehe auch

Zum Thema passende Artikel

Externe Links

Kurs über IR-Modelle auf der Website der Universität Paris 13