Einfaches Suchtool für die lokale Ausrichtung

SPRENGEN

Beschreibung des Bildes CCDC132 Blast Results.png. Information
Entwickelt von Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Letzte Version 2.9.0+ (1 st April 2019)
Geschrieben in C und C ++
Betriebssystem Geben Sie Unix , Linux , macOS und Microsoft Windows ein
Umgebung Plattformübergreifend
Formate lesen XML BLAST-Ausgabe ( d )
schriftliche Formate XML BLAST-Ausgabe ( d )
Art Bioinformatik-Tool
Lizenz Gemeinfrei
Webseite blast.ncbi.nlm.nih.gov

BLAST (Akronym für Basic Local Alignment Search Tool ) ist eine heuristische Suchmethode, die in der Bioinformatik verwendet wird . Es ermöglicht, die ähnlichen Regionen zwischen zwei oder mehr Sequenzen von Nukleotiden oder Aminosäuren zu finden und eine Ausrichtung der homologen Regionen bereitzustellen .

Bei einer vom Benutzer eingegebenen Sequenz ermöglicht BLAST ein schnelles Auffinden in Datenbanken, wobei die aufgelisteten Sequenzen Ähnlichkeiten mit der eingegebenen Sequenz aufweisen. Diese Methode wird verwendet, um funktionelle oder evolutionäre Beziehungen zwischen Sequenzen zu finden und kann helfen, Mitglieder derselben Genfamilie zu identifizieren .

Historisch

Dieses Programm wurde von Stephen Altschul, Warren Gish und David Lipman am National Center for Biotechnology Information (NCBI) entwickelt. Die Originalveröffentlichung vom Oktober 1990, Basic Local Alignment Search Tool  " , wurde über 90.000 Mal zitiert und ist damit eine der meistzitierten in der wissenschaftlichen Welt.

Prinzip

BLAST durchsucht eine Sequenzdatenbank nach Segmenten, die lokal homolog zu einer vom Benutzer bereitgestellten Abfragesequenz sind . BLAST verwendet eine Ähnlichkeitsmatrix , um Alignment-Scores zu berechnen. Es liefert eine Punktzahl für jedes gefundene Alignment und verwendet diese Punktzahl, um eine statistische Bewertung der Relevanz dieses Alignments (Wahrscheinlichkeit, dass es auf Zufall zurückzuführen ist) zu geben.

Das Funktionsprinzip von BLAST lässt sich in drei Stufen unterteilen:

Erstellen des k- uplet- Wörterbuchs

Die analysierte Sequenz wird zuerst in überlappende k- uplets geschnitten. Typischerweise werden Aminosäure- Quadruplets für eine Proteinsequenz verwendet . Ein Sequenzsegment wie FATCATY wird beispielsweise aufgeteilt in:

FATC, ATCA, TCAT, CATY

Jedes dieser k- Tupel wird dann analysiert, um alle möglichen k-Tupel zu identifizieren, die eine Ausrichtungsbewertung ergeben würden, die größer als ein vom Benutzer eingestellter Schwellenwert ist. Um diesen Alignment-Score zu berechnen, verwenden wir eine Ähnlichkeitsmatrix, M ( a , b ), oft BLOSUM62 (wobei a und b die beiden Aminosäuren verglichen). Wenn wir zum Beispiel das oben erwähnte FATC-Quadruplet nehmen, erhalten wir durch Ausrichten mit sich selbst 24, wenn wir die BLOSUM62-Matrix verwenden:

Punktzahl (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Einige andere Vierlinge liefern gute Alignment-Scores mit FATC, zum Beispiel YATC, FASC oder FSTC, die Alignment-Scores von mehr als 20 ergeben:

Punktzahl (FATC, YATC) = 21; Punktzahl (FATC, FASC) = 20; Punktzahl (FATC, FSTC) = 21

Auf der anderen Seite ergibt die große Mehrheit der anderen Vierlinge sehr schlechte Ausrichtungswerte, meistens negativ. Wenn wir einen hohen Schwellenwert festlegen, wie in unserem Beispiel 18 oder 20, haben wir daher nur wenige mögliche Vierlinge, die einen über diesem Schwellenwert liegenden Ausrichtungswert ergeben.

BLAST wird daher für jedes k- uplet der analysierten Sequenz ein Wörterbuch aller möglichen k- uplet bilden, das eine Bewertung über dem Schwellenwert ergibt. Das Wörterbuch zeigt auch die Position in der Referenzsequenz an, an der sich das ursprüngliche k- uplet befindet . Einmal erstellt, enthält dieses Wörterbuch die Liste aller möglichen k- uples, die es ermöglichen, eine anfängliche Ausrichtungsbewertung größer als der Schwellenwert zu erhalten.

Suche und Erweiterung der Homologie

Sobald das Verzeichnis aller k- uplets mit einem Homologie-Schwellenwert mit der Referenzsequenz erstellt wurde, scannt BLAST die Bank der zu analysierenden Sequenzen, indem nacheinander alle k- uplets betrachtet werden, aus denen jede Sequenz besteht. Es prüft jedes Mal, ob das k- uplet der Bank im Wörterbuch vorhanden ist. Wenn es nicht Teil davon ist, geht es zum nächsten weiter. Wenn es im Wörterbuch vorhanden ist, bedeutet dies, dass sich zwischen der Referenzsequenz und der Sequenz der analysierten Bibliothek ein Embryo der homologen Region befindet. Diese Homologie hat eine minimale Punktzahl, die dem im ersten Schritt eingestellten Schwellenwert entspricht.

BLAST wird dann versuchen zu sehen, ob sich diese homologe Region über das Start- k- uplet hinaus erstreckt . Es wird dann versuchen, die Region stromaufwärts und stromabwärts zu erweitern, um zu sehen, ob die Homologiebewertung mit diesem Erweiterungsversuch zunimmt. Wenn die beiden Sequenzen tatsächlich eine lokale Homologie um das Start- k- Tuplett herum aufweisen, führt die Verlängerung zu einer effektiven Erhöhung des Scores, da neue Aminosäuren ausgerichtet werden. Wenn im Gegensatz dazu der Verlängerungsversuch eine Erhöhung des Scores nicht ermöglicht, weil die Homologie nicht fortbesteht, stoppt BLAST. Wenn das Endergebnis nach der Erweiterung einen bestimmten Schwellenwert überschreitet, wird das Alignment für die abschließende Analyse beibehalten.

Dieser Vorgang wird für alle k- uplets der Sequenzen durchgeführt, die in der analysierten Bibliothek vorhanden sind, die sequentiell gescannt wird.

Score-Analyse und Relevanzbewertung

BLAST und seine abgeleiteten Versionen (siehe unten) werden verwendet, um in einer Sequenzdatenbank nach Sequenzen zu suchen, die zu einer interessierenden Sequenz homolog sind, die vom Benutzer eingegeben wird. Diese Datenbanken wie GenBank oder UniProt sind sehr groß und enthalten typischerweise mehrere hundert Millionen Sequenzen. Die erschöpfende Suche mit BLAST liefert im Allgemeinen mehrere Dutzend Alignments mit der interessierenden Sequenz. Es stellt sich dann die Frage nach der biologischen Relevanz dieser Alignments: Ist das Alignment einfach das Ergebnis des Zufalls, weil wir sehr viele Sequenzen analysiert haben, oder spiegelt es eine echte biologische Konservierung wider?

Dazu führt BLAST während der Suche eine Analyse der Verteilung der Alignment-Scores zwischen der interessierenden Sequenz und der Bibliothek durch. Er passt diese Verteilung an eine theoretische Dichtefunktion an , die es ihm erlaubt, die Wahrscheinlichkeit und die mathematische Erwartung zu berechnen , eine Ausrichtung zu finden, die eine bestimmte Punktzahl in der Bank allein aufgrund des Zufalls ergibt. Die Parameter dieser Dichtefunktion variieren als Funktion der Nukleotid- oder Aminosäurezusammensetzungen der Sequenz und der analysierten Bibliothek.

Typischerweise zeigt BLAST für jede Ausrichtung den Wert dieser Erwartung an, der als E-Wert bezeichnet wird . Für biologisch relevante Alignments nimmt der E-Wert infinitesimale Werte an (von 10 –10 bis 10 –200 ), was bedeutet, dass es sehr unwahrscheinlich ist, dass der erhaltene Alignment-Score zufällig ist.

Variationen

Verwendete Daten

Der Begriff Explosion kann je nach Art der Eingabesequenz und der verwendeten Datenbank modifiziert werden:

Algorithmus

Seit seiner Erstellung wurden verschiedene Versionen des Algorithmus entwickelt:

Hinweise und Referenzen

  1. Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad.  Lionel Domenjoud), Précis de genomique , Bruxelles / Paris, De Boeck University, 2004, 347  S. ( ISBN  2-8041-4334-1 ) , "2"
  2. (in) SF Altschul , W. Gish , W. Miller , EW Myers und DJ Lipman , „  Grundlegendes lokales Alignment-Suchwerkzeug  “ , Journal of Molecular Biology , vol.  215, n O  3, 5. Oktober 1990, s.  403-10 ( PMID  2231712 , Zusammenfassung )
  3. 20.000 mal
  4. Frédéric Dardel und François Képès , Bioinformatik. Genomik und Postgenomik , Palaiseau, Éditions de l'École Polytechnique,2002, 246  S. ( ISBN  2-7302-0927-1 , Online-Präsentation )

Siehe auch

Zum Thema passende Artikel

Externe Links