Internet-Archiv | |
Server der Mirror-Site in der Bibliotheca Alexandrina | |
Schaffung | 1996 |
---|---|
Gründer | Siehe Der Vorstand |
Rechtsform | Gemeinnützige Organisation |
Slogan | Universeller Zugang zu allem Wissen |
Der Hauptsitz | 300 Funston Avenue, Richmond District , San Francisco , Kalifornien USA |
Richtung | Julien Masanes |
Aktivität | Webarchivierung und Konservierung |
Produkte | Titelbildarchiv ( d ) |
Partner | Digitale öffentliche Bibliothek von Amerika |
Wirksam | 200 |
Webseite | archiv.org |
Umsatz | 14.000.000 US-Dollar (2015) |
Internet Archive (oder IA ) ist eine gemeinnützige Organisation, die sich der Webarchivierung verschrieben hat und auch als digitale Bibliothek fungiert . Diese elektronischen Archive bestehen aus Schnappschüssen (Kopien von Seiten, die zu verschiedenen Zeiten aufgenommen wurden) von Webseiten, Software, Filmen, Büchern und Audioaufnahmen.
Um die Stabilität und Sicherheit der archivierten Daten zu gewährleisten , wird in der Bibliotheca Alexandrina in Ägypten eine funktionierende Mirror-Site unterhalten . AI stellt seine Sammlungen Forschenden, Historikern und Akademikern kostenlos zur Verfügung. Sie liegt im Richmond District , südlich des Presidio von San Francisco , ist Mitglied der American Library Association und vom Staat Kalifornien offiziell als Bibliothek anerkannt .
Der von IA verwendete Webcrawler ist Heritrix , eine kostenlose Software . Die kostenlose Software zum Scannen von Büchern ist Scribe.
Internet Archive wurde 1996 von Brewster Kahle gegründet . Aufgrund ihrer Ziele – der Bewahrung des menschlichen Wissens und der Zugänglichkeit der Sammlungen für alle – vergleichen die Gründer von IA dieses Projekt mit dem älteren der Bibliothek von Alexandria .
Die Wayback Machine ist der vom Internet Archive entwickelte Snapshot-Teil des Webs . Wayback Machine wurde von Brewster Kahle entwickelt , um alles im Web zu speichern und zu indizieren. Die Wayback Machine wird mit Inhalten von Alexa aktualisiert . Dieser Dienst ermöglicht es Benutzern, archivierte Versionen von Webseiten im Laufe der Zeit zu sehen: es ist der „dreidimensionale Index“.
Schnappschüsse sind sechs bis zwölf Monate nach der Aufnahme verfügbar. Die Häufigkeit der Schnappschüsse variiert, nicht alle Aktualisierungen der Website werden aufgezeichnet und es können Intervalle von mehreren Wochen eingehalten werden.
Im Jahr 2006 enthielt die Wayback Machine fast zwei Petabyte an Daten. Das Volumen wächst mit einer Rate von 20 Terabyte pro Monat, eine Steigerung von zwei Dritteln von zwölf Terabyte pro Monat, die im Jahr 2003 die Wachstumsrate war. Dieses Wachstum ist größer als die Textmenge, die in den wichtigsten Bibliotheken der Welt enthalten ist world. world, einschließlich der Library of Congress . Im Jahr 2009 enthielt die Wayback Machine fast drei Petabyte an Daten und ihre Zunahme betrug 100 Terabyte pro Monat. Die Daten werden in Systemen von Capricorne Technologies, Petabox-Racks, archiviert.
Der Name " Wayback Machine " bezieht sich auf Episoden der Rocky and Bullwinkle Show , in denen Mr. Peabody, ein Professorenhund und sein Assistent Sherman (ein menschliches Haustier), eine Zeitmaschine namens "WABAC Machine" verwenden, um berühmte historische Ereignisse zu beschreiben.
Im Jahr 2015 hätte Russland fälschlicherweise die gesamte Website von Wayback Machine blockiert .
Benutzer, die ihre Daten dauerhaft und sofort archivieren möchten, können im Abonnement den Dienst Archive-It (en) IA nutzen. Die gesammelten Daten werden regelmäßig von der Wayback Machine indiziert . ImDezember 2007, hatte dieser Dienst mehr als 230 Millionen URLs für 466 öffentliche Sammlungen erstellt, darunter Regierungsbehörden, Universitäten und Kultureinrichtungen.
Beispiele für Organisationen oder Institutionen, die an Archive-It teilnehmen:
Neben Webarchiven verwalten Internetarchiv-Dienste große Sammlungen digitaler Medien, die entweder gemeinfrei sind oder zur Weiterverteilung lizenziert sind, z. B. Creative Commons-Lizenzen . Die Medien sind in Sammlungen nach Typ (Bewegtbild, Ton, Text etc.) und in Untersammlungen nach unterschiedlichen Kriterien geordnet. Zu jeder Hauptsammlung gehört eine Community -Untersammlung , in der Beiträge der Öffentlichkeit archiviert werden können.
Seine Sammlungen umfassen (von 14. November 2007):
Neben Spielfilmen umfasst die Videosammlung des Internet Archive Nachrichten, Comic- Klassiker , Pro- und Anti-Kriegspropaganda und weitere ephemere Materialien aus den Prelinger Archives wie Werbespots, Lehr- und Industriefilme sowie Amateurfilmsammlungen.
Beispiele für die Sammlung:
Beispiel für einen französischen Film:
GeräuscheDie Audiosammlung besteht aus Musik, Hörbüchern, Nachrichtensendungen, alten Radiosendungen und einer Vielzahl anderer Audiodateien. Die Untersammlung des Live-Musikarchivs umfasst 40.000 Konzertmitschnitte unabhängiger Künstler sowie etablierterer Künstler und Musikensembles mit weniger strengen Regeln für Konzertaufnahmen wie The Grateful Dead .
TexteDiese Sammlung vereint Texte aus dem Gutenberg-Projekt , Texte aus verschiedenen Bibliotheken weltweit sowie eine Sammlung von Dokumenten und Notizen aus dem ARPANET . Mit über 7 Millionen Büchern ist das Internet Archive nach Google Books die zweitgrößte frei zugängliche digitale Buchbibliothek der Welt. Alle von Internetnutzern oder Institutionen digitalisierten und online gestellten Dokumente werden oerisiert und in EPUB-Dateien für E-Reader oder MOBI für Kindle konvertiert und auf vielen Servern weltweit (Kalifornien, Ägypten, China, Niederlande) dauerhaft archiviert. ).
Die Bibliothek Sainte-Geneviève ist die erste französische Bibliothek, die an dem Projekt vonMärz 2010. In Frankreich ist die École des Ponts ParisTech (seitAugust 2012), das Nationale Institut für Agrarforschung (seit Januar 2015), Sciences Po Paris (seit Juni 2015), die Interuniversitäre Gesundheitsbibliothek (seit Januar 2018), die Universitätsbibliothek für Sprachen und Zivilisationen (seit September 2019) und die Bibliotheken der École normale supérieure (seit Dezember 2020) beteiligen sich ebenfalls.
Internet Archive ist Mitglied der Open Content Alliance (in) und betreibt die Open Library, in der mehr als 200.000 digitalisierte Bücher im öffentlichen Bereich online verfügbar und druckbar sind. Dazu dient das Scribe Book Scanning System .
Während der Coronavirus-Pandemie stellt das Internetarchiv Amerikanern urheberrechtlich geschützte Bücher zur Verfügung, damit sie während der Haft lernen können. Mehrere Verlage sind anderer Meinung und das Internetarchiv entzieht den betroffenen Büchern den Zugriff auf16. Juni 2020. Trotz allem verklagen die Verlage die Seite und ein Prozess ist für 2021 geplant.
Ende 2002 löschte das Internetarchiv verschiedene Scientology- kritische Seiten, die von der Wayback Machine identifiziert wurden. Die Fehlermeldung besagt, dass es sich um eine "Anfrage des Eigentümers der Site" handelt. Später wurde klargestellt, dass Anwälte der Scientology-Kirche ohne rechtlichen Grund die Entfernung verlangt hatten und dass die Eigentümer dieser Seiten nicht wollten, dass ihre Seiten entfernt werden.
Im Oktober 2004, in einem Fall namens " Telewizja Polska SA vs Echostar Satellite ", versucht ein Anwalt wahrscheinlich erstmals, die Archive der Wayback Machine als Quelle für zulässige Beweise zu verwenden.
Telewizja Polska ist der Anbieter von TVP Polonia und EchoStar, die das Dish Network betreiben . Im Vorfeld des Prozesses sagte EchoStar, dass es beabsichtigt, Schnappschüsse von der Wayback Machine als Beweis für frühere Inhalte der Telewizja Polska-Site zu verwenden. Telewizja Polska hat einen Antrag in limine (in) gestellt , um die Aufnahmen vom Hörensagen und von nicht authentifizierten Quellen der Berechtigten zu entfernen, aber der Richter Arlander Keys wies die Behauptungen von Telewizja Polska zurück und weigerte sich, die Beweise im Prozess auszuschließen. Zum Zeitpunkt der Verhandlung widerrief der erstinstanzliche Richter des Bezirksgerichts Ronald Guzman jedoch die Feststellungen von Richter Keys und kam zu dem Schluss, dass weder das Internetarchiv noch die zugrunde liegenden Seiten (d. h. die Website von Telewizja Polska) als Beweismittel nicht zulässig seien. Richter Guzman entschied, dass das Drucken einer Webseite kein Beweis für die Authentifizierung der Informationen sei.
Anwälte im Gesundheitswesen, Inc.Im Jahr 2003 wurde Healthcare Advocates, Inc. in einer Klage wegen Markenverletzung angeklagt. Die Staatsanwaltschaft versuchte, archiviertes Internetmaterial zu verwenden, das über das Internetarchiv zugänglich war . Nachdem das Unternehmen diese Klage verloren hatte, versuchte das Unternehmen, Internet Archive wegen Verstoßes gegen das DMCA und das Computer Fraud and Abuse Act zu verklagen . Sie argumentierten, dass sie, da sie eine robots.txt- Datei auf ihrer Website installiert haben, vom KI-Bot hätte vermieden werden sollen. Die erste Beschwerde wurde eingereicht am26. Juni 2003, und sie haben die robots.txt-Datei hinzugefügt, die 8. Juli 2003, die Seiten rückwirkend zurückzuziehen. Der Prozess wurde außergerichtlich beigelegt.
Robots.txt wird als Teil des Robots Exclusion Standard verwendet , einem freiwilligen Standard, den IA anwendet, der es Robotern verbietet, bestimmte Seiten zu indexieren, die vom Ersteller als unzulässig markiert wurden. Infolgedessen hat die KI eine Reihe von Websites entfernt, die jetzt über die Wayback-Maschine nicht zugänglich sind. Dies liegt manchmal daran, dass ein neuer Eigentümer eine robots.txt-Datei platziert hat, die die Indexierung der Website untersagt. Administratoren sagen, dass sie an einem System arbeiten, das den Zugriff auf frühere Archive ermöglicht, während Elemente ausgeschlossen werden, die nach dem Hinzufügen der Datei erstellt wurden.
Im Jahr 2006 wendete IA die Robots.txt-Regel rückwirkend an. Wenn eine Site IA blockiert, wie z. B. Healthcare Advocates, werden alle zuvor von dieser Domain archivierten Seiten ebenfalls gelöscht. Bei gesperrten Seiten wird nur die Datei robots.txt archiviert. Diese Praxis scheint für Forscher, die auf Informationen zugreifen, die in der Vergangenheit verfügbar waren, schädlich zu sein.
IA stellt jedoch auch fest, dass „manchmal ein Website-Besitzer uns direkt kontaktiert und uns auffordert, die Indexierung oder Archivierung einer Website einzustellen. Wir kommen diesen Aufforderungen nach. Sie erklärten auch, dass "das Internetarchiv nicht daran interessiert ist, Websites oder anderes Internetmaterial zu erhalten oder zugänglich zu machen, das sich im Besitz von Personen befindet, die nicht möchten, dass ihr Material archiviert wird . "
PatentrechtDas US-Patentamt und das Europäische Patentamt akzeptieren bei Vorliegen zusätzlicher Voraussetzungen (z. B. bei Vorlage einer offiziellen Stellungnahme des Archivars) eine Datierung aus dem Internet Archive als Nachweis für die Veröffentlichung einer Webseite. Diese Daten werden verwendet, um festzustellen, ob eine Webseite beispielsweise vor dem Anmeldetag einer Patentanmeldung verfügbar ist.
Im November 2005, der kostenlose Download von Grateful Dead- Konzerten wurde von der Website entfernt. John Perry Barlow identifizierte Bob Weir , Mickey Hart und Bill Kreutzmann als die Initiatoren dieser Veränderung. Das30. November, fasste ein Post im Forum von Brewster Kahle zusammen, was der Kompromiss zwischen den Bandmitgliedern zu sein scheint. Live- Konzerte können heruntergeladen oder angehört werden, und Aufzeichnungen sind nur zum Anhören verfügbar. Seitdem sind Konzerte hinzugekommen.
Suzanne ShellDas 12. Dezember 2005, forderte die Aktivistin Suzanne Shell (in) zwischen 1999 und 2004 100.000 Dollar für die Archivierung ihrer Seite „profane-justice.org“.20. Januar 2006, Das Internet Archive reichte eine Feststellungsklage im Bezirk Nordkalifornien ein und forderte das Gericht auf, festzustellen, dass IA das Urheberrecht von Shell nicht verletzt.
Shell reagierte und reichte eine weitere Beschwerde gegen IA wegen der Archivierung seiner Website ein und behauptete, gegen seine Nutzungsbedingungen verstoßen zu haben. Das13. Februar 2007, wies ein Bezirksrichter von Colorado alle Ansprüche mit Ausnahme des Vertragsbruchs ab.
Das 25. April 2007, IA und Shell haben gemeinsam die Beilegung ihres Streits bekannt gegeben. IA sagte: „Das Internetarchiv hat kein Interesse daran, Informationen in die Wayback-Maschine von Leuten einzugeben, die ihre archivierten Webinhalte nicht sehen wollen. Wir erkennen an, dass M me Shell ein gültiges Urheberrecht besitzt und auf seine Website anwendbar ist, und wir bedauern, dass die Registrierung seiner Website in der Wayback Machine zu diesem Rechtsstreit geführt hat. Wir sind froh, diesen Fall hinter uns zu haben. " Shell sagte: " Ich respektiere die Zielsetzung und den historischen Wert von Internet Archive. Ich hatte nie die Absicht, dieses Ziel zu stören oder Schaden anzurichten. "
Urheberrechtssituation in EuropaIn Europa kann die Wayback Machine manchmal gegen Urheberrechte verstoßen. Nur der Ersteller kann entscheiden, wo sein Inhalt veröffentlicht oder vervielfältigt wird, die Seiten sollten auf Wunsch des Erstellers aus den Archiven entfernt werden.
In Europa ist European Internet Archive ein Wettbewerber.