Proteindatenbank

Die Datenbank für Proteine oder BDP the Research Collaboratory for Structural Bioinformatics , besser bekannt als Protein Data Bank oder PDB, ist eine globale Sammlung von Daten über die dreidimensionale Struktur (oder 3D-Struktur) biologischer Makromoleküle: Proteine im Wesentlichen und Nukleinsäuren . Diese Strukturen werden im Wesentlichen durch Kristallographie -Röntgen- oder NMR-Spektroskopie bestimmt . Diese experimentellen Daten werden von Biologen und Biochemikern weltweit in der PDB hinterlegt und sind gemeinfrei . Ihre Beratung ist kostenlos und kann direkt über die Websites der Bank erfolgen:

Europa: PDBe;
Japan: PDBj;
Vereinigte Staaten: RCSB PDB.

PDB ist die Hauptquelle für strukturbiologische Daten und bietet insbesondere Zugang zu 3D-Strukturen von Proteinen von pharmazeutischem Interesse.

Historisch

Gegründet 1971 von der Brookhaven National Laboratory , die Bank Protein Data wurde in über 2003 an das Projekt weltweit Protein Data Bank (wwPDB), die von PBDE besteht, PDBj, RCSB PDB und BMRB für NMR.

Die Finanzierung erfolgt durch die National Science Foundation , das Department of Energy , die National Library of Medicine und das National Institute of General Medical Sciences (en) . Das Europäische Bioinformatik-Institut ( European Bioinformatics Institute , EBI), das Vereinigte Königreich und das Institut für Proteinforschung in Japan , sammeln und verarbeiten auch Strukturdatendateien.

Die Worldwide Protein Data Bank (wwPDB) umfasst drei Mitgliedsorganisationen, die die Datenspeicher-, Verarbeitungs- und Verteilungszentren der PDB sind: RCSB in den Vereinigten Staaten, PDBe, Protein Databank in Europe - EBI, Europe, und PDBj, Protein Data Bank Japan , Japan . Die Mission der wwPDB ist es, ein einzigartiges PDB-Archiv makromolekularer Strukturdaten auf dem neuesten Stand zu halten, das frei zugänglich und für die gesamte Gemeinschaft öffentlich zugänglich ist.

PDB-Wachstum und Nutzerdiversifikation

Ursprünglich im Jahr 1971 enthielt die PDB sieben Strukturen. Die Zahl der abgeschiedenen Strukturen nahm ab den 1980er Jahren erheblich zu, tatsächlich wurden zu dieser Zeit kristallographische Techniken verbessert, durch NMR bestimmte Strukturen hinzugefügt, und die wissenschaftliche Gemeinschaft änderte ihre Sicht auf den Datenaustausch.

In den frühen 1990er Jahren forderte die Mehrheit der Zeitungen einen PDB-Code und eine Förderagentur, NIST , verlangte die Einreichung aller Strukturdaten. PDB ist auch über das Internet zugänglich geworden, anstatt über physische Medien. Tatsächlich werden die ersten Benutzer von PDB, die auf Experten aus der Strukturforschung beschränkt waren, Bewerber, die verschiedene Techniken zur Bestimmung von Strukturen verwenden: Röntgenbeugung, NMR, Kryoelektronenmikroskopie und theoretische Modellierung. Theoretische Modelle (siehe Vorhersage der Struktur von Proteinen ) werden jedoch nicht mehr akzeptiert und wurden inJuli 2002. Die PDB-Nutzer sind heute sehr vielfältig und bringen Forscher der Biologie, Chemie oder Bioinformatik, Lehrer und Schüler aller Niveaus zusammen.

Viele Förderquellen und wissenschaftliche Zeitschriften fordern inzwischen die Hinterlegung der Strukturen in der PDB. Auch durch die strukturelle Genomik wurde ein unglaublicher Datenstrom generiert . Heute wächst die Zahl der Einträge in die PDB exponentiell.

PDB ist eine Schlüsselressource in der Strukturbiologie und für neuere Arbeiten zur strukturellen Genomik von wesentlicher Bedeutung . Unzählige Datenbanken und derivative Projekte wurden im Hinblick auf die PDB zur Integration entwickelt und zu klassifizieren Proteinstruktur , Proteinfunktion und Protein Evolution .

Inhalt

Die PDB enthält unter anderem 27. Juli 2021, mehr als 180.000 Strukturen. Die Daten liegen seit ihrer Einführung im pdb-Format vor, seit einigen Jahren auch im mmCif-Format, das speziell für die Strukturdaten der PDB entwickelt wurde. Jährlich kommen 6.000 bis 7.000 Bauwerke hinzu.

Die Bank enthält Dateien für jedes Molekülmodell. Diese Dateien beschreiben die genaue Lage jedes Atoms des untersuchten Makromoleküls, also die kartesischen Koordinaten des Atoms in einem dreidimensionalen Koordinatensystem. Wenn man sich mehr für die Sequenz des Makromoleküls (die Liste der Amino- oder Nukleinsäuren) interessiert, ist es besser, andere, viel größere Bibliotheken zu verwenden, wie beispielsweise Swiss-Prot . Die Dateien enthalten auch Metadaten .

PDB ( PDB Holdings List ) Statistiken vom2. Februar 2012 :

Experimentelle Methode	Eiweiß	Nukleinsäuren	Protein / Nukleinsäure- Komplexe	Andere	Gesamt
Röntgendiffraktometrie	64.591	1337	3 187	2	69.117
NMR	8.108	966	186	7	9.267
Elektronenmikroskopie	277	22	101	0	400
Hybrid	42	3	2	1	48
Andere	138	4	5	13	160
Gesamt	73 156	2 332	3 481	23	78.992

Dateiformate

Jedes Modell wird in der Bank durch eine eindeutige Kennung mit 4 Zeichen referenziert, wobei das erste immer ein numerisches Zeichen ist und die folgenden drei alphanumerische Zeichen sind. Diese Kennung wird „pdb-Code“ genannt.

Für PDB-Dateien gibt es mehrere Formate:

PDB-Format

Das pdb-Format ist das Originalformat der Bank. Der Leitfaden zu diesem Format wurde mehrmals überarbeitet; die aktuelle Version (Nov. 2012) ist die Version 3.30 . Es wird dringend empfohlen, dieses Handbuch zu lesen, bevor Sie die Rohdaten der pdb-Dateien untersuchen.

Die Archive enthalten kartesische Atomkoordinaten, Bibliographie, Strukturinformationen, kristallographische Strukturfaktoren und experimentelle NMR-Daten. Ursprünglich wurde das pdb-Format durch die Verwendung und Breite von gelochten Computerkarten diktiert. Dadurch enthält jede Zeile genau 80 Zeichen.

Eine Datei im pdb-Format ist eine Textdatei, in der jede Spalte ihre Bedeutung hat: Jeder Parameter ist unveränderlich. Somit bestimmen die ersten 6 Spalten, dh die ersten 6 Zeichen einer bestimmten Zeile, das Feld der Datei. Wir finden zum Beispiel die Felder "TITLE_" (also der Titel des untersuchten Makromoleküls), "KEYWDS" (die Schlüsselwörter des Eintrags), "EXPDTA", das Auskunft über die verwendete experimentelle Methode gibt, "SEQRES" (die Sequenz des untersuchten Proteins), „ATOM__“ oder „HETATM“, Felder mit allen Informationen zu einem bestimmten Atom. Letztes Beispiel, in diesen letzten Feldern wird der Name des Atoms durch die Spalten 13 bis 16 beschrieben (dh vom dreizehnten bis zum sechzehnten Zeichen der Zeile).

Die Zeilen „ATOM__“ betreffen Aminosäuren oder Nukleinsäuren und die Zeilen „HETATM“ sind anderen Molekülen (Lösungsmittel, Substrat, Ion, Detergens usw.) gewidmet. Für ein gegebenes Makromolekül oder einen Komplex gibt es so viele „ATOM__“- und „HETATM“-Linien, wie der Experimentator Atome beobachtet.

Die lange Geschichte des pdb-Formats hat zu uneinheitlichen Daten geführt. Dieses Format lässt auch Raum für zahlreiche Fehler, die bei den Kontrollen bei der Hinterlegung von Bauwerken nicht systematisch beseitigt werden. Dies können Unstimmigkeiten zwischen der Sequenz und den gezeigten Resten oder Probleme mit der Nomenklatur der Atome von Aminosäuren oder Liganden sein.

Einschränkungen des pdb-Formats

Das 80-Spalten-Format von pdb-Dateien ist relativ restriktiv. Die maximale Anzahl von Atomen in einer pdb-Datei beträgt 99.999, da nur 5 Spalten für Atomnummern zugewiesen sind. Ebenso beträgt die Anzahl der Reste pro String maximal 9.999: Es sind nur 4 Spalten für diese Zahl zugelassen. Die Anzahl der Strings ist auf 62 begrenzt: Es steht nur eine Spalte zur Verfügung, und die möglichen Werte sind einer der Buchstaben der 26 Buchstaben des Alphabets, in Klein- oder Großbuchstaben, oder eine der Zahlen von 0 bis 9. Quantitativ wurde dieses Format definiert, diese Einschränkungen schienen nicht restriktiv zu sein, wurden aber bei der Abscheidung extrem großer Strukturen, wie Viren, Ribosomen oder multienzymatischen Komplexen, immer wieder überwunden.

Das mmCIF-Format

Das wachsende Interesse an der Entwicklung von Datenbanken und elektronischen Publikationen in den späten 1980er Jahren führte zu der Notwendigkeit einer strukturierteren, standardisierten, uneingeschränkten und qualitativ hochwertigen Darstellung von PDB-Daten. 1990 erweiterte die International Union of Crystallography (IUCr) die Datendarstellung zur Beschreibung der kristallographischen Strukturen niedermolekularer Moleküle auf Makromoleküle. Diese Darstellung wird CIF für Crystallographic Information File genannt . Daraus wurde daher das mmCIF-Wörterbuch ( Macromolecular Crystallographic Information File ) entwickelt. Die erste Version des mmCIF-Wörterbuchs wurde 1996 veröffentlicht.

Als RCSB 1998 die PDB übernahm, übernahm es das mmCIF-Format für die Datenverarbeitung und -verwaltung. 2001 wurden alle pdb-Dateien korrigiert und in das mmCIF4-Format konvertiert.

Im mmCIF-Format wird jedes Feld jedes Abschnitts einer pdb-Datei durch eine Beschreibung eines Merkmals eines Objekts repräsentiert, die einerseits den Namen des Merkmals (zum Beispiel _struct.entry_id) und andererseits d' enthält übergeben Sie den Inhalt der Beschreibung (hier der PDB-Code: 1cbn). Wir sprechen von einem „Name-Wert“-Paar. Es ist einfach, ohne Informationsverlust eine mmCIF-Datei in das pdb-Format zu konvertieren, da alle Informationen direkt analysiert werden können. Andererseits ist es nicht möglich, die Konvertierung einer pdb-Datei in das mmCIF-Format vollständig zu automatisieren, da mehrere mmCIF-Deskriptoren entweder in der PDB-Datei fehlen oder in einem "REMARK"-Feld vorhanden sind, das nicht immer analysiert werden kann. Der Inhalt der Felder „REMARK“ ist nämlich nach verschiedenen Einträgen im mmCIF-Wörterbuch getrennt, um alle Informationen, die beispielsweise im Abschnitt Material und Methoden enthalten sind (Eigenschaften des Kristalls, Veredelungsverfahren usw.) oder in den Beschreibungen des biologisch aktiven Moleküls oder der anderen vorhandenen Moleküle (Substrat, Inhibitor usw.).

Das mmCIF-Wörterbuch enthält über 1700 Einträge, die natürlich nicht alle in einer einzigen PDB-Datei verwendet werden. Allen Namen der Felder wird das Zeichen „Unterstrich“ (_) vorangestellt, um sie von den Werten selbst unterscheiden zu können. Jeder Name entspricht einem Eintrag im mmCIF-Wörterbuch, in dem die Eigenschaften des Objekts genau definiert sind.

Vergleich einer pdb-Datei und einer mmCIF-Datei

Jedes Feld einer pdb-Datei wird durch einen bestimmten Namen in mmCIF dargestellt. Zum Beispiel das Feld "HEADER" der pdb 1cbn-Datei:

HEADER PLANT SEED PROTEIN 11-OCT-91 1CBN

wird :

_struct.entry_id '1CBN' _struct.title 'PLANT SEED PROTEIN' _struct_keywords.entry_id '1CBN' _struct_keywords.text 'plant seed protein' _database_2.database_id 'PDB' _database_2.database_code '1CBN' _database_PDB_rev.rev_num 1 _database_PDB_rev.date_original '1991-10-11'

Die Name-Wert-Paarung ist der Hauptunterschied zum pdb-Format. Es hat den Vorteil, dass für jedes Element der Daten in der Datei eine explizite Referenz bereitgestellt wird, anstatt die Interpretation dem Programm, das die Datei liest, frei zu überlassen.

Das pdbml-Format

Das pdbml-Format ist die XML-Formatanpassung von pdb-Formatdaten und enthält die im PDB Exchange Dictionnary beschriebenen Einträge . Dieses Wörterbuch enthält die gleichen Einträge wie das mmCIF-Wörterbuch sowie andere, um alle von der PDB verwalteten und verteilten Daten berücksichtigen zu können. Dieses Format kann viel mehr Informationen über Modelle speichern als das pdb-Format.

Teil des englischen Textes , der ins Französische übersetzt werden soll

Zu übersetzender englischer Text:
Dieses Legacy-Format hat viele Probleme mit dem Format verursacht, und folglich hat die PDB verschiedene "Säuberungs"-Projekte;

Die Molecular Modeling DataBase (MMDB) von NCBI
Das Data Uniformity Project von PDB

Jedes dieser durch Zuschüsse finanzierten Projekte hat versucht, das gleiche Ziel auf unterschiedlichen Wegen zu erreichen. Das Data Uniformity Project wird vom RCSB (der aktuellen Heimat der PDB) gehostet. Jeder verwendet die ursprünglichen PDB-Daten, um ein neues Format abzuleiten; Die MMDB verwendet ASN.1 (und eine XML-Konvertierung dieses Formats); Der MSD verwendet eine relationale Datenbank; Das Data Uniformity Project verwendet mmCIF (und eine andere XML-Konvertierung dieses Formats).

Manche Leute würden sagen, dass dies eine gute Sache ist ; andere würden argumentieren, dass wir ohne ein universelles Informationsarchiv (dh ein gemeinsames Wörterbuch) über dasselbe sprechen können.

Jede in PDB veröffentlichte Struktur erhält eine vierstellige alphanumerische Kennung, ihre PDB-ID. Dies sollte nicht als Identifikator für Biomoleküle verwendet werden, da in PDB oft mehrere Strukturen für dasselbe Molekül (in unterschiedlichen Umgebungen oder Konformationen) mit unterschiedlichen PDB-IDs enthalten sind.

Wenn ein Biologe Strukturdaten für ein Protein oder eine Nukleinsäure einreicht, werden diese von den PDB-Mitarbeitern überprüft und annotiert. Anschließend werden die Daten automatisch auf Plausibilität geprüft. Der Quellcode für diese Validierungssoftware wurde kostenlos freigegeben. Die Hauptdatenbank akzeptiert nur experimentell abgeleitete Strukturen.

Diesen Text übersetzen • Tools • (+)

Datenberatung

Die Dateien beschreiben die molekularen Modelle können von der PDBE oder RCSB oder PDBj Website und betrachteten mit verschiedenen Software wie heruntergeladen werden rasmol , Jmol , Protein Segment Finder , Glockenspiel , eine VRML - Erweiterung (Plugin) einen Browsers oder eine MMLIB Bibliothek für den Python Programmiersprache. Die PDB-Website enthält auch Ressourcen für Bildung, strukturelle Genomik und andere nützliche Software.

Hinweise und Referenzen

Weltweite Proteindatenbank (wwPDB)
RCSB PDB
PDBe - EBI
PDBj
(in) " Wie die Proteindatenbank die Biologie veränderte: eine thematische Reihe " , im Journal of Biological Chemistry (Zugriff am 22. April 2021 )

Siehe auch

Literaturverzeichnis

(en) Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. „ Die Proteindatenbank: eine computerbasierte Archivdatei für makromolekulare Strukturen “ J Mol Biol . 1977; 112: 535–542. PMID 875032 .

Externe Links

(in) Proteindatenbank - Home ( home page )
(de) Proteindatenbank Europa
(de) Proteindatenbank Japan
(de) RCSB Proteindatenbank - USA
( fr ) " The Protein Data Bank " - Die Referenzveröffentlichung auf PDB von Berman et al. PMID 10592235
(in) RasMol Home Page - Ein Werkzeug zur molekularen Visualisierung visualization
(de) ExPASy - Swiss-Prot und TrEMBL
(en) DNA-Sequenz-Kooperationsseite International Nucleotid Sequence Database Collaboration

Enzym - Datenbank Data Links

[1] Die beste Kartierung liefert die Gruppe von Kim Henrick am EBI.
Die PDB selbst bietet Links zu anderen Datenbanken.
[2] Führen Sie eine Suche im BRENDA Enzymdatenbankportal durch .
[3] PDBSProtEC: