Einfaches Suchtool für die lokale Ausrichtung

SPRENGEN

Information

Entwickelt von	Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Letzte Version	2.9.0+ (1 st April 2019)
Geschrieben in	C und C ++
Betriebssystem	Geben Sie Unix , Linux , macOS und Microsoft Windows ein
Umgebung	Plattformübergreifend
Formate lesen	XML BLAST-Ausgabe ( d )
schriftliche Formate	XML BLAST-Ausgabe ( d )
Art	Bioinformatik-Tool
Lizenz	Gemeinfrei
Webseite	blast.ncbi.nlm.nih.gov

BLAST (Akronym für Basic Local Alignment Search Tool ) ist eine heuristische Suchmethode, die in der Bioinformatik verwendet wird . Es ermöglicht, die ähnlichen Regionen zwischen zwei oder mehr Sequenzen von Nukleotiden oder Aminosäuren zu finden und eine Ausrichtung der homologen Regionen bereitzustellen .

Bei einer vom Benutzer eingegebenen Sequenz ermöglicht BLAST ein schnelles Auffinden in Datenbanken, wobei die aufgelisteten Sequenzen Ähnlichkeiten mit der eingegebenen Sequenz aufweisen. Diese Methode wird verwendet, um funktionelle oder evolutionäre Beziehungen zwischen Sequenzen zu finden und kann helfen, Mitglieder derselben Genfamilie zu identifizieren .

Historisch

Dieses Programm wurde von Stephen Altschul, Warren Gish und David Lipman am National Center for Biotechnology Information (NCBI) entwickelt. Die Originalveröffentlichung vom Oktober 1990, " Basic Local Alignment Search Tool " , wurde über 90.000 Mal zitiert und ist damit eine der meistzitierten in der wissenschaftlichen Welt.

Prinzip

BLAST durchsucht eine Sequenzdatenbank nach Segmenten, die lokal homolog zu einer vom Benutzer bereitgestellten Abfragesequenz sind . BLAST verwendet eine Ähnlichkeitsmatrix , um Alignment-Scores zu berechnen. Es liefert eine Punktzahl für jedes gefundene Alignment und verwendet diese Punktzahl, um eine statistische Bewertung der Relevanz dieses Alignments (Wahrscheinlichkeit, dass es auf Zufall zurückzuführen ist) zu geben.

Das Funktionsprinzip von BLAST lässt sich in drei Stufen unterteilen:

Zerlegen der Testsequenz in überlappende Segmente der Länge k ( k- uplets) und Suchen nach jedem von ihnen nach allen möglichen k- uplets mit einer Homologiebewertung, die größer als ein gegebener Schwellenwert ist. BLAST bildet somit ein Wörterbuch aller k- Tupel, die eine minimale lokale Homologie ergeben;
Scannen der Bank mit dem so gebildeten Wörterbuch. Immer wenn BLAST eine Übereinstimmung in der Bibliothek identifiziert, versucht es, die Homologie stromaufwärts und stromabwärts des ursprünglich gefundenen k- uplet zu erweitern;
nach Erweiterung der Homologie wertet es aus der erhaltenen Punktzahl die Wahrscheinlichkeit aus, dass es auf Zufall (oder genauer gesagt, seine mathematische Erwartung ) zurückzuführen ist.

Erstellen des k- uplet- Wörterbuchs

Die analysierte Sequenz wird zuerst in überlappende k- uplets geschnitten. Typischerweise werden Aminosäure- Quadruplets für eine Proteinsequenz verwendet . Ein Sequenzsegment wie FATCATY wird beispielsweise aufgeteilt in:

FATC, ATCA, TCAT, CATY

Jedes dieser k- Tupel wird dann analysiert, um alle möglichen k-Tupel zu identifizieren, die eine Ausrichtungsbewertung ergeben würden, die größer als ein vom Benutzer eingestellter Schwellenwert ist. Um diesen Alignment-Score zu berechnen, verwenden wir eine Ähnlichkeitsmatrix, M ( a , b ), oft BLOSUM62 (wobei a und b die beiden Aminosäuren verglichen). Wenn wir zum Beispiel das oben erwähnte FATC-Quadruplet nehmen, erhalten wir durch Ausrichten mit sich selbst 24, wenn wir die BLOSUM62-Matrix verwenden:

Punktzahl (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Einige andere Vierlinge liefern gute Alignment-Scores mit FATC, zum Beispiel YATC, FASC oder FSTC, die Alignment-Scores von mehr als 20 ergeben:

Punktzahl (FATC, YATC) = 21; Punktzahl (FATC, FASC) = 20; Punktzahl (FATC, FSTC) = 21

Auf der anderen Seite ergibt die große Mehrheit der anderen Vierlinge sehr schlechte Ausrichtungswerte, meistens negativ. Wenn wir einen hohen Schwellenwert festlegen, wie in unserem Beispiel 18 oder 20, haben wir daher nur wenige mögliche Vierlinge, die einen über diesem Schwellenwert liegenden Ausrichtungswert ergeben.

BLAST wird daher für jedes k- uplet der analysierten Sequenz ein Wörterbuch aller möglichen k- uplet bilden, das eine Bewertung über dem Schwellenwert ergibt. Das Wörterbuch zeigt auch die Position in der Referenzsequenz an, an der sich das ursprüngliche k- uplet befindet . Einmal erstellt, enthält dieses Wörterbuch die Liste aller möglichen k- uples, die es ermöglichen, eine anfängliche Ausrichtungsbewertung größer als der Schwellenwert zu erhalten.

Suche und Erweiterung der Homologie

Sobald das Verzeichnis aller k- uplets mit einem Homologie-Schwellenwert mit der Referenzsequenz erstellt wurde, scannt BLAST die Bank der zu analysierenden Sequenzen, indem nacheinander alle k- uplets betrachtet werden, aus denen jede Sequenz besteht. Es prüft jedes Mal, ob das k- uplet der Bank im Wörterbuch vorhanden ist. Wenn es nicht Teil davon ist, geht es zum nächsten weiter. Wenn es im Wörterbuch vorhanden ist, bedeutet dies, dass sich zwischen der Referenzsequenz und der Sequenz der analysierten Bibliothek ein Embryo der homologen Region befindet. Diese Homologie hat eine minimale Punktzahl, die dem im ersten Schritt eingestellten Schwellenwert entspricht.

BLAST wird dann versuchen zu sehen, ob sich diese homologe Region über das Start- k- uplet hinaus erstreckt . Es wird dann versuchen, die Region stromaufwärts und stromabwärts zu erweitern, um zu sehen, ob die Homologiebewertung mit diesem Erweiterungsversuch zunimmt. Wenn die beiden Sequenzen tatsächlich eine lokale Homologie um das Start- k- Tuplett herum aufweisen, führt die Verlängerung zu einer effektiven Erhöhung des Scores, da neue Aminosäuren ausgerichtet werden. Wenn im Gegensatz dazu der Verlängerungsversuch eine Erhöhung des Scores nicht ermöglicht, weil die Homologie nicht fortbesteht, stoppt BLAST. Wenn das Endergebnis nach der Erweiterung einen bestimmten Schwellenwert überschreitet, wird das Alignment für die abschließende Analyse beibehalten.

Dieser Vorgang wird für alle k- uplets der Sequenzen durchgeführt, die in der analysierten Bibliothek vorhanden sind, die sequentiell gescannt wird.

Score-Analyse und Relevanzbewertung

BLAST und seine abgeleiteten Versionen (siehe unten) werden verwendet, um in einer Sequenzdatenbank nach Sequenzen zu suchen, die zu einer interessierenden Sequenz homolog sind, die vom Benutzer eingegeben wird. Diese Datenbanken wie GenBank oder UniProt sind sehr groß und enthalten typischerweise mehrere hundert Millionen Sequenzen. Die erschöpfende Suche mit BLAST liefert im Allgemeinen mehrere Dutzend Alignments mit der interessierenden Sequenz. Es stellt sich dann die Frage nach der biologischen Relevanz dieser Alignments: Ist das Alignment einfach das Ergebnis des Zufalls, weil wir sehr viele Sequenzen analysiert haben, oder spiegelt es eine echte biologische Konservierung wider?

Dazu führt BLAST während der Suche eine Analyse der Verteilung der Alignment-Scores zwischen der interessierenden Sequenz und der Bibliothek durch. Er passt diese Verteilung an eine theoretische Dichtefunktion an , die es ihm erlaubt, die Wahrscheinlichkeit und die mathematische Erwartung zu berechnen , eine Ausrichtung zu finden, die eine bestimmte Punktzahl in der Bank allein aufgrund des Zufalls ergibt. Die Parameter dieser Dichtefunktion variieren als Funktion der Nukleotid- oder Aminosäurezusammensetzungen der Sequenz und der analysierten Bibliothek.

Typischerweise zeigt BLAST für jede Ausrichtung den Wert dieser Erwartung an, der als E-Wert bezeichnet wird . Für biologisch relevante Alignments nimmt der E-Wert infinitesimale Werte an (von 10 –10 bis 10 –200 ), was bedeutet, dass es sehr unwahrscheinlich ist, dass der erhaltene Alignment-Score zufällig ist.

Variationen

Verwendete Daten

Der Begriff Explosion kann je nach Art der Eingabesequenz und der verwendeten Datenbank modifiziert werden:

blastn, Nukleotid, Nukleotidsequenz gegen eine Datenbank von Nukleotidsequenzen;
blastp, Protein, Proteinsequenz gegen eine Proteinsequenzdatenbank;
blastx, Nukleotidsequenz, die in eine Proteinsequenz gegen eine Datenbank von Proteinsequenzen übersetzt wurde;
tblastn, Proteinsequenz gegen eine Datenbank von Nukleotidsequenzen, die in Proteinsequenzen übersetzt wurden;
tblastx, Nukleotidsequenz translatiert in Proteinsequenz gegen eine Datenbank von Nukleotidsequenzen translatiert in Proteinsequenzen.

Algorithmus

Seit seiner Erstellung wurden verschiedene Versionen des Algorithmus entwickelt:

BlastN, Nukleotidsequenz-Blast, langsam, ermöglicht aber das Auffinden von Ähnlichkeiten, die nur auf einem Teil der Sequenzen lokalisiert sind;
BlastP, Proteinsequenz-Blast;
Megablast, schnell, ermöglicht es Ihnen, sehr ähnliche Sequenzen zu finden;
PSI-Blast ( positionsspezifischer iterierter BLAST ), Blast wurde mehrmals pro Iteration neu gestartet . Bei jeder Iteration wird aus den Ergebnissen eine Konsensussequenz bestimmt und als Quellsequenz für die nächste Iteration verwendet;
PHI-BLAST ( Pattern Hit Initiated Blast ), Programm, das eine Proteinsequenz und ein Muster als Quelle verwendet , wobei letzteres als Ausgangspunkt für die Suche nach Ähnlichkeiten mit den in den Datenbanken vorhandenen Sequenzen verwendet wird.

Hinweise und Referenzen

Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad. Lionel Domenjoud), Précis de genomique , Bruxelles / Paris, De Boeck University, 2004, 347 S. ( ISBN 2-8041-4334-1 ) , "2"
(in) SF Altschul , W. Gish , W. Miller , EW Myers und DJ Lipman , „ Grundlegendes lokales Alignment-Suchwerkzeug “ , Journal of Molecular Biology , vol. 215, n O 3, 5. Oktober 1990, s. 403-10 ( PMID 2231712 , Zusammenfassung )
20.000 mal
Frédéric Dardel und François Képès , Bioinformatik. Genomik und Postgenomik , Palaiseau, Éditions de l'École Polytechnique,2002, 246 S. ( ISBN 2-7302-0927-1 , Online-Präsentation )

Siehe auch

Zum Thema passende Artikel

Externe Links

(de) Offizielle Seite
(de) " mpiBLAST Demo " ( Archiv • Wikiwix • Archive.is • Google • Was tun? ) - mpiBLAST Parallel Version