Der PageRank oder PR ist der Linkanalyse-Algorithmus, der zum Ranking-System der von der Suchmaschine Google verwendeten Webseiten beiträgt . Es misst quantitativ die Popularität einer Webseite. Der PageRank ist nur ein Indikator unter vielen im Algorithmus zum Ranking von Webseiten in Suchergebnissen von Google. Dieses System wurde von Larry Page, Mitbegründer von Google, erfunden. Dieses Wort ist eine eingetragene Marke .
Der Fixpunktsatz ist das mathematische Konzept, das die Berechnung des PageRank ermöglicht hat .
Das Grundprinzip ist auf Attribut auf jeder Seite ein Wert (oder score) proportional zu der Anzahl der Male , dass ein Benutzer von dieser Seite das Surfen im passieren würde Web Graph , indem Sie zufällig auf einen der Links , die auf jeder Seite. Daher hat eine Seite einen PageRank, der umso wichtiger ist, je größer die Summe der PageRanks der Seiten ist, die darauf verlinken (einschließlich des PageRanks , wenn interne Links vorhanden sind). Der PageRank ist ein Maß für die Zentralität im Webnetzwerk.
Formal ist die Bewegung des Benutzers ein zufälliger Spaziergang durch das Diagramm des Webs, dh das gerichtete Diagramm, dessen Scheitelpunkte die Seiten des Webs und die Bögen die Hyperlinks darstellen . Angenommen, der Benutzer wählt jeden Link unabhängig von zuvor besuchten Seiten aus (der Realismus einer solchen Annahme kann diskutiert werden), ist dies ein Markov-Prozess. Der PageRank ist dann einfach die stationäre Wahrscheinlichkeit einer Markov-Kette , dh eines Perron-Frobenius- Vektors der Adjazenzmatrix des Webgraphen. Die (gigantische) Größe dieses Graphen und seine dynamische Entwicklung (Änderungen von Seiten und Hyperlinks, Verbindung oder Trennung eines Webservers usw.) machen jedoch eine direkte Berechnung dieses Eigenvektors unmöglich: Es werden Approximationsalgorithmen verwendet.
An diesem Algorithmus wurden zahlreiche Korrekturen und Verbesserungen vorgenommen, von denen einige in dem am angemeldeten Patent beschrieben sind 17. April 2007andere bleiben nur Google bekannt. Insbesondere ist es wichtig sicherzustellen, dass zu lokale Änderungen des Webdiagramms nicht zu einer unverhältnismäßigen Erhöhung des PageRank bestimmter Seiten führen, um zu vermeiden, dass Benutzer (z. B. kommerzielle Websites) ihren PageRank nicht künstlich "steigern" . In dem oben beschriebenen grundlegenden Algorithmus erhöht das Hinzufügen vieler interner Links zu einer Webseite (was für eine Person sehr einfach ist) beispielsweise den PageRank (diese Strategie funktioniert nicht mit dem aktuellen PageRank von Google).
Bis 2016 konnten Internetnutzer eine Annäherung an das Ranking jeder Seite erhalten, indem sie den PageRank- Bereich der Google-Symbolleiste konsultierten , in dem der Wert auf einer Skala von 0 bis 10 ( logarithmische Skala ) angegeben war. Bis zu diesem Datum gab es auch viele Tools, um es zu erhalten, ohne die Symbolleiste anzuzeigen, auch wenn sie auch auf dem von der Google-Symbolleiste zurückgegebenen Wert basierten. Ab 2016 stellt Google keinen PageRank-Wert mehr zur Verfügung, sodass dies derzeit nicht möglich ist. Daher versuchen einige private Unternehmen wie Moz und Majestic SEO, dies anhand ihrer Indikatoren ( Zitierfluss , Vertrauensfluss , Domänenautorität , Seitenautorität ) zu erreichen, um sich ein Bild vom Real PageRank zu machen und es Webmastern zu ermöglichen, die verschiedenen zu vergleichen Websites .
Vor der Erfindung von PageRank gab es die Versuche von Archie im Jahr 1990 und Veronica im Jahr 1992; der WebCrawler Brain Pinkerton im Jahr 1994; und Louis Monniers AltaVista-Motor im Jahr 1995.
Der Algorithmus von Google basiert auf dem 1964 von Eugene Garfield gegründeten Science Citation Index (SCI) , einem Index für die Einstufung wissenschaftlicher Artikel basierend auf der Anzahl der vom Institute for Scientific Information (ISI) erstellten Zitate . Google übernimmt das Prinzip des Zitierens und ersetzt das Konzept des eingehenden Links.
1996 brachte Jon Kleinberg bei IBM die Idee einer Klassifizierung auf der Grundlage der Struktur von Hypertext-Links (im Gegensatz zur semantischen Analyse) auf. Der Forscher der Cornell University wird auch eine Inspirationsquelle für die Entwickler von PageRank sein .
Die Idee von PageRank wurde 1998 erstmals offiziell von Sergey Brin und Larry Page , den Gründern von Google, in „Die Anatomie einer großen hypertexuellen Websuchmaschine“ vorgestellt.
Das erste Patent, Methode zur Knotenrangfolge in einer verknüpften Datenbank , wurde jedoch sofort eingereichtJanuar 1997 vor der Registrierung am 9. Januar 1998. Es befindet sich zunächst im Besitz der Stanford University, die Google zwei Monate nach ihrer Gründung im selben Jahr (geändert in den Jahren 2000 und 2003) die Lizenz erteilt. Dies war eine exklusive Lizenz bis 2011. Die Forschung, die zur Entwicklung der PageRank- Technologie führte, wurde teilweise von der National Science Foundation finanziert . Im Patent ist daher festgelegt, dass die Regierung bestimmte Rechte an dieser Erfindung hat.
Laut Google-Patent lauten die Ranking-Kriterien:
Dies ist ein Kriterium für die Autorität, die den Seiten gewährt wird, da der Autor über eine seriöse Qualität und anerkannte Kompetenz verfügt. Dieses Kriterium ist mit Regierungsstandorten und Referenzstandorten wie W3C verknüpft . Der Begriff TrustRank stammt von Yahoo! und nicht von Google, das jedoch auch ein Vertrauenskriterium für die Berechnung der Positionierung enthält.
Die Welt der Suchmaschinenoptimierung stimmt heute zu, dass Google semantische Werte in die Berechnung des PageRank aufgenommen hat . Die Abstimmung von einer Seite zur anderen, dargestellt durch einen Link, wird mit dem Thema der sendenden Seite gewichtet. Der verwendete Wortkörper beeinflusst das Ranking einer Seite in den Suchmaschinenergebnissen, aber auch den Wert der von ihr übertragenen Links.
Der Wert nofollowdes HTML- Attributs relwurde 2005 von Google außerhalb der normativen Prozesse des W3C definiert . Laut Google überträgt ein so qualifizierter Link auf einer Webseite keinen PageRank- Wert auf die so verlinkten Seiten. Das15. Juni 2009, Matt Cutts , Leiter der Qualität des Google-Index, kündigte in der Behandlung von Links , um eine Veränderung nofollow. Diese Art von Verknüpfung wird weiterhin ignoriert, aber indirekt in der Berechnungsformel berücksichtigt. Diese Änderung der Behandlung ist eine Reaktion auf den missbräuchlichen Gebrauch durch Webmaster ( PageRank Sculpting ). Im Allgemeinen berücksichtigt die neue Formel alle auf einer Seite vorhandenen Links (auch Javascript- oder Werbelinks).
Viele Tools bieten die Möglichkeit, das zukünftige Ranking einer Seite nach dem nächsten Besuch des Googlebots zu berechnen . Diese Tools sind unzuverlässig, da sie ausschließlich auf dem "RK" -Wert der Google- Prüfsumme basieren . Die Nützlichkeit dieser Daten ist nur Google bekannt und hat nichts mit einem zukünftigen PageRank zu tun , außer bei Transaktionsanalysen.
Mit dem Canonical-Tag, das zwischen den Tags <head> und </ head> enthalten sein muss, können Sie zwischen mehreren Seiten mit demselben Inhalt sortieren und Suchmaschinen nur eine einzige Seite zum Crawlen geben. Wir werden dann den Wert der Duplikate auf eine einzelne Seite, die kanonische Seite, übertragen. Das kanonische Tag kann auch von Standort A zu Standort B verwendet werden.
Die Art und Weise, Algorithmen zu klassifizieren, zu sortieren und zu priorisieren , ist nicht objektiv. Es basiert immer auf einer bestimmten Vorstellung davon, was wichtig und was legitim ist. PageRank ist keine Ausnahme von dieser Beobachtung.
Das erste Kriterium von PageRank bezieht sich auf die Rangfolge von Seiten aus eingehenden Links: Je mehr Seiten ein Dokument zitieren, desto wichtiger wird dieses Dokument. Dieses Klassifizierungsprinzip ist weder neutral noch objektiv. Es bezieht sich auf eine Konzeption der Glaubwürdigkeit von Inhalten, die einem anderen Legitimationsprinzip entgegengesetzt ist: Autorität - ein Prinzip, das vom TrustRank berücksichtigt wird . Das Prinzip des PageRank-Rankings entspricht eher der Sichtbarkeit als der Qualität und der Legitimität. Das Hauptproblem besteht darin, dass der Algorithmus die Gründe für das Zitieren eines Artikels nicht berücksichtigt und dass Inhalte häufig genau deshalb zitiert werden, weil sie falsch sind, was im PageRank-Ranking unangemessen an Bedeutung gewinnt.
Das andere mögliche Problem ist der Matthew-Effekt : Der hohe Rang - basierend auf der Häufigkeit des Zitierens - eines Artikels führt zu mehr Zitaten, wodurch eine Schleife entsteht, die einen Artikel immer sichtbarer und damit legitimer macht .
Außerdem erstellen SEOs und Webmaster manchmal massiv Backlinks , indem sie Links austauschen oder eine Website in einer Reihe von Verzeichnissen registrieren, wodurch es möglich wurde, den Beliebtheitsindex eines Inhalts künstlich zu erhöhen. Google reagiert jedoch einerseits mit der Einrichtung von Filtern wie der Sandbox, andererseits mit der Erkennung und Sanktionierung massiver Kampagnen künstlicher Links. Darüber hinaus werden qualitative Kriterien in die semantische Vertrauensanalyse integriert, der TrustRank- Index , der unter anderem das Nutzerverhalten untersucht.