Vereinfachte molekulare Eingangsleitungseintragsspezifikation

Die Simplified Molecular Input Line Entry Specification ( SMILES) ist eine symbolische Sprache zur Beschreibung der Struktur chemischer Moleküle in Form kurzer ASCII- Zeichenfolgen . SMILES - Strings können in den meisten molekularen Struktur - Editoren importiert werden konvertiert zurück zu einer zu 2D - Darstellung oder ein 3D - Modell und damit der Aufbau ermöglichen Computer - Datenbanken (relativ) einfach.

Die Definition der SMILES-Sprache wurde ursprünglich von David Weininger Ende der 1980er Jahre eingeführt. Seitdem wurden mehrere Erweiterungen und Modifikationen hinzugefügt, insbesondere von der Firma Daylight Chemical Information Systems , deren Gründer Weininger ist. Es gibt andere Textsprachen zur Darstellung von Molekülen, einschließlich InChl , das von IUPAC eingeführt wurde . SMILES ist jedoch weiter verbreitet, da es für den menschlichen Benutzer leichter zu lesen ist und insbesondere, weil es in vielen molekularchemischen Programmen implementiert ist .

Prinzipien von SMILES und Graphentheorie

SMILES basiert auf der Darstellung eines chemischen Moleküls in Form eines Graphen im mathematischen Sinne des Wortes. Dies wird als molekularer Graph bezeichnet . Die Atome sind die Eckpunkte des Graphen, und die chemische Bindung sind die Kanten. Jeder Scheitelpunkt des Graphen ist mit dem Symbol des entsprechenden Atoms (C, N, O…) gekennzeichnet.

Die SMILES-Zeichenfolge, die einem bestimmten Molekül entspricht, wird erhalten, indem der Graph gemäß einem detaillierten Durchlaufalgorithmus schrittweise durchlaufen wird und das Symbol jedes gekreuzten Scheitelpunkts nacheinander gedruckt wird. Der Graph des Moleküls wird zunächst vereinfacht, indem alle Wasserstoffatome entfernt werden (implizite Notation) und Zyklen zum Transformieren des Graph- Spanning-Tree ( Spanning-Tree ) geöffnet werden . Jedes Mal, wenn ein Ring geöffnet wird, wird ein Zahlensuffix hinzugefügt, um die Verbindung der Eckpunkte anzuzeigen, die der entfernten chemischen Bindung entsprechen. Klammern werden verwendet, um Verzweigungspunkte im Baum anzugeben.

Aufgrund der Natur dieser Sprache gibt es für dasselbe organische Molekül, das aus mehreren anderen Atomen als Wasserstoff besteht, mehrere mögliche Schriften, abhängig vom Ausgangsatom und der Reihenfolge der Molekülstruktur. Somit sind CCO, OCC, C (C) O und C (O) C alle vier gültigen Darstellungen des Ethanolmoleküls CH 3.–CH 2-OH.

Die theoretischen Prinzipien der SMILES-Sprache werden in dem von Daylight Chemical Information Systems vorgeschlagenen theoretischen SMILES-Handbuch ausführlich dargestellt .

Implementierung und Beispiele

Atome

Atome werden durch ihr chemisches Symbol in eckigen Klammern dargestellt, z. B. [Se] für Selen . Die eckigen Klammern können für die üblichen Elemente der organischen Chemie weggelassen werden  : C, N, O, P, S, B, F, Cl, Br und I. Alle anderen Elemente müssen in eckigen Klammern stehen. Wenn die eckigen Klammern weggelassen werden, wird implizit angenommen, dass die freien Valenzen jedes Atoms durch Wasserstoffatome ergänzt werden . Zum Beispiel ist die SMILES-Darstellung von Wasser O, die von Ethanol CCO.

Ein Atom, das eine oder mehrere elektrische Ladungen trägt, wird in eckige Klammern gesetzt (was auch immer es ist), gefolgt vom Symbol H, wenn es mit einem oder mehreren Wasserstoffatomen verbunden ist (gefolgt von ihrer Anzahl [außer s 'gibt es nur eine ]: NH4 für Ammonium ), dann das Vorzeichen '+' für eine positive Ladung oder das Vorzeichen '-' für eine negative Ladung. Die Anzahl der Gebühren wird dann nach dem Zeichen angegeben (es sei denn, es gibt nur eine). Es ist jedoch auch möglich, das Vorzeichen der Ladung so oft zu schreiben, wie das Ion es hat: Anstelle von "Ti + 4" kann man sehr gut "Ti ++++" ( Titan IV, Ti 4+ ) schreiben. . Somit wird die Hydroxid - Anion wird durch [OH & supmin;] dargestellt, die Oxonium - Kation durch [OH3 +] und das Kobalt III (Co 3+ ) Kation von [Co + 3] oder [Co +++].

Verbindungen

Die Einzelbindung ist implizit und wird nicht angezeigt (optional, um die Sequenz nicht zu überladen). CC steht daher für Ethan und CCC für Propan . Die Doppelbindung wird durch das Symbol "=" und die Dreifachbindung durch das Symbol "#" dargestellt. Das Ethylen ist C = C und Cyanwasserstoff C # N.

Auswirkungen

Die Verzweigungen der Molekülstruktur sind in Klammern unmittelbar nach dem Atom angegeben, zu dem sie verzweigt sind. Zum Beispiel steht CC (= O) O für Essigsäure , wobei zwei Sauerstoffatome an den Kohlenstoff der Carbonsäuregruppe gebunden sind. Wenn zwei Verzweigungen von demselben Atom ausgehen, wird der nächste Zweig unmittelbar nach dem Ende der Klammer des ersten platziert: Die Formel von Dimethylpropan lautet daher CC (C) (C) C. Zweige können verkettet und verschachtelt werden, um komplexere Molekülstrukturen wie die von Zitronensäure zu beschreiben  : OC (= O) CC (O) (CC (O) = O) C (O) = O.

Fahrräder

Das Schließen der Ringe wird durch Zahlen angezeigt, die hinter den Atomen stehen, die verbunden sind. Das Cyclohexan wird durch C1CCCCC1 dargestellt , wobei beide "1" als Markierungen dienen, die anzeigen, dass die beiden Kohlenstoffe, mit denen das Vorstehende verbunden ist, einen Ring mit sechs Atomen bilden. Ebenso die Lächelauslöserfunktion Formel 1,1-Dimethylcyclopentan wird C1CCCC (C) (C) 1  ; das von 3-Cyanoisol (3-Methoxybenzonitril) kann COc (c1) cccc1C # N sein (siehe nebenstehende Abbildung ). Für einen zweiten Zyklus ist die Markierung 2 ( Naphthalin  : c1cccc2c1cccc2 ); jenseits von 9 muss das Zeichen '%' vor der Markierung stehen, um sie von zwei unterschiedlichen Markierungen zu unterscheiden, die mit demselben Atom verbunden sind (~ C12 ~ bedeutet, dass das Kohlenstoffatom die schließenden Bindungen von Ring 1 und 2 trägt, während ~ C. % 12 ~ zeigt ein einzelnes Etikett an, das 12).

Aromatizität

C-, N-, O-, S-Atome, die an einem aromatischen Ring beteiligt sind, werden in Kleinbuchstaben durch 'c', 'n', 'o' bzw. 's' dargestellt. Doppelbindungen werden selten explizit angegeben. Das Benzol wird somit durch c1ccccc1 (anstelle von C1 = CC = CC = C1 , was der Formel Kekule entspricht ) und Furan c1cocc1 dargestellt . Bindungen zwischen aromatischen Atomen werden standardmäßig als aromatisch betrachtet, obwohl diese aromatische Bindung explizit mit dem Symbol ':' angegeben werden kann. Um eine Einfachbindung zwischen zwei aromatischen Ringen (oder Atomen) anzuzeigen, muss sie durch das Symbol '-' dargestellt werden, das normalerweise weggelassen wird, um die Sequenz nicht zu überladen. Das Biphenyl wird durch c1ccccc1-c2ccccc2 dargestellt . Ein aromatisches Stickstoffatom, das an ein Wasserstoffatom wie das des Pyrrolmoleküls gebunden ist, sollte als [nH] dargestellt werden. Das Pyrrol wird als c1c [nH] cc1 und das Imidazol N1C [nH] cc1 gezeigt .

Die Algorithmen von Daylight und OpenEye ermöglichen die Erzeugung kanonischer SMILES-Ketten, die sich in ihrer Behandlung der Aromatizität unterscheiden.

Es ist zu beachten, dass sich die Aromatizität, wie sie von den verschiedenen SMILES-Ketteninterpreten festgestellt wird, häufig stark von der tatsächlichen Aromatizität der Verbindungen unterscheidet.

Stereochemie

Die Konfiguration der Kohlenstoff-Kohlenstoff-Doppelbindungen ist mit den Zeichen '/' und '\' dargestellt, die um die betreffenden Kohlenstoffe angeordnet sind. Somit F / C = C / F ist eine Darstellung von trans - 1,2-Difluorethen (Fluoratome sind nicht "entgegengesetzt" zueinander), und die F / C = C \ F eine Darstellung von cis -1,2-Difluorethen (Fluoratome befinden sich in Bezug auf die Achse der Doppelbindung auf derselben Seite). Ob der zweite Schrägstrich die gleiche '/' Orientierung hat oder nicht '\', bedeutet jedoch nicht, dass die Doppelbindung trans oder cis ist , sondern einfach, dass sich das erste Radikal, das der Doppelbindung folgt, auf derselben Seite befindet wie dasjenige, das es hat es geht voraus (entgegengesetzte Schrägstriche "/ C = C" oder "\ C = C /") oder auf der gegenüberliegenden Seite (Schrägstriche mit der gleichen Bedeutung). Somit hat trans-2-Hydroxybut-2-en die mögliche Formel C / C = C (/ C) O oder sogar C / C = C (\ O) C und cis-2-Hydroxybut-2-en wird zu C / C = C (\ C) O.

Die Konfiguration asymmetrischer Kohlenstoffatome und chiraler Zentren wird durch das Symbol '@' angezeigt. Das häufigste Beispiel ist L- Alanin (2S-Aminopransäure), ein Enantiomer, dargestellt durch die Formel N [C @@ H] (C) C (= O) O. Hier bedeutet "@@", dass die OH-Radikale –H, –CH3 und –C (= O) OH im Uhrzeigersinn um den chiralen Kohlenstoff angeordnet sind, wenn man ihn von der Position des Stickstoffatoms aus betrachtet. Die –H-Radikale, die in der SMILES-Notation nicht direkt dargestellt sind. Wenn ein chiraler Kohlenstoff einen hat, muss er an die Zeichen zwischen den Klammern „[]“ angehängt werden und steht daher an erster Stelle in der Reihenfolge der Radikale. Das Schreiben von N [C @@ H] (C) C (= O) O entspricht daher dem Schreiben von N [C @@] [H] (C) C (= O) O. Umgekehrt zeigt ein einzelnes '@' Symbol ein Ablesen der Radikale nach dem Uhrzeigersinn (gegen den Uhrzeigersinn) an, die dem chiralen Atom folgen. D-Alanin (2R-Aminopransäure), Reflexion seines L-Homologen durch einen Spiegel gesehen, kann daher als N [C @ H] (C) C (= O) O oder sogar N [C @ H] (C) geschrieben werden (= O) O) C (das Vertauschen der Reihenfolge der Methyl- und Carboxylradikale hat den gleichen Effekt wie das Umkehren der Drehrichtung).

Ein Isotop kann spezifiziert werden, indem das betreffende Atom in eckige Klammern gesetzt und seinem Symbol durch seine Massenzahl vorangestellt wird . Somit kann ein Benzolmolekül mit einem Kohlenstoffatom -14 [14C] 1ccccc1 geschrieben werden, während deuteriertes Chloroform [2H] C (Cl) (Cl) Cl ist.

Andere Möglichkeiten der SMILES-Sprache

In derselben SMILES-Formel können zwei unterschiedliche Moleküle oder Ionen dargestellt werden. Ihre jeweiligen Formeln werden dann durch das Zeichen '.' Getrennt . . Somit wird Natriumchlorid weder durch [Na] Cl noch durch [Na +] [Cl-] dargestellt, sondern durch [Na +]. [Cl-] (dies ist eine Ionenbindung ).

Darüber hinaus ist es möglich, chemische Gleichungen unter Verwendung des Charakters '>' darzustellen , Reaktanten >> Produkte für eine einfache Reaktion und Reaktanten> Mittel> Produkte für eine Reaktion, an der ein Mittel beteiligt ist, das nicht direkt daran beteiligt ist ( Katalysator ). C = CO = OO = OO = O >> O = C = OO = C = OO ist daher äquivalent zu CH 2 = CH 2+ 3 O 2→ 2 CO 2+ H 2 O.( Verbrennung von Ethen ).

Anwendung auf Moleküle verschiedener Typen

Molekül Struktur SMILES Formel
Distickstoff N≡N N # N.
Methylisocyanat (MIC) CH 3 –N = C = O. CN = C = O.
Kupfersulfat Cu 2+ SO4 2- [Cu + 2]. [O-] S (= O) (= O) [O-]
Enanthotoxin (C 17 H 22 O 2) Molekülstruktur von Enanthotoxin CCC [C @@ H] (O) CC \ C = C \ C = C \ C # CC # C \ C = C \ CO
Pyrethrin II (C 21 H 28 O 5 ) Molekülstruktur von Pyrethrin II COC (= O) C (\ C) = C \ C1C (C) (C) [C @ H] 1C (= O) O [C @ H] 2C (C) = C (C (= O) C2 ) CC = CC = C.
Aflatoxin B1 (C 17 H 12 O 6 ) Molekülstruktur von Aflatoxin B1 O1C = C [C @ H] ([C @ H] 1O2) c3c2cc (OC) c4c3OC (= O) C5 = C4CCC (= O) 5
Glucose (Glucopyranose) (C 6 H 12 O 6 ) Molekülstruktur von Glucopyranose OC [C @ H] (O1) [C @ H] (O) [C @ H] (O) [C @ H] (O) [C @ H] (O) 1
Cuscutine alias Bergenin (Harz) (C 14 H 16 O 9 ) Molekülstruktur von Cuscutin (Bergenin) OC [C @ H] (O1) [C @ H] (O) [C @ H] (O) [C @ H] 2 ​​[C @ H] 1c3c (O) c (OC) c (O) cc3C (= O) O2
Ein Pheromon des kalifornischen Cochineal (3Z, 6R) -3-Methyl-6- (prop-1-en-2-yl) deca-3,9-dien-1-ylacetat CC (= O) OCCC (/ C) = C \ C [C @ H] (C (C) = C) CCC = C.
2S, 5R- Chalcogran  : Pheromon des Borkenkäfers Pityogenes chalcographus (2S, 5R) -2-Ethyl-1,6-dioxaspiro [4.4] nonan CC [C @ H] (O1) CC [C @@] 12CCCO2
Vanillin Vanillin-Molekülstruktur O = Cc1ccc (O) c (OC) c1
Melatonin (C 13 H 16 N 2 O 2) Molekülstruktur von Melatonin CC (= O) NCCC1 = CNc2c1cc (OC) cc2
Flavoperirin (C 17 H 15 N 2 ) Molekülstruktur von Flavopereirin CCc (c1) ccc2 [n +] 1ccc3c2Nc4c3cccc4
Nikotin (C 10 H 14 N 2 ) Nikotinmolekülstruktur CN1CCC [C @ H] 1c2cccnc2
Alpha-Thujon (C 10 H 16 O) Molekülstruktur von Thujon CC (C) [C @@] 12C [C @@ H] 1 [C @@ H] (C) C (= O) C2
Thiamin (C 12 H 17 N 4 OS + )
(Vitamin B1)
Molekülstruktur von Thiamin OCCc1c (C) [n +] (= cs1) Cc2cnc (C) nc (N) 2

Abbildung mit einem Molekül von mehr als neun Zyklen, Cephalostatin -1 (Steroidmolekül der Summenformel C 54 H 74 N 2 O 10)von einem Meereswurm aus der Familie der Hydrophiloidea , Cephalodiscus gilchristi ):

Cephalostatin-1-Molekülstruktur.

Geben Sie ausgehend vom Methylradikal ganz links in der Abbildung an:

C [C @@] (C) (O1) C [C @@ H] (O) [C @@] 1 (O2) [C @@ H] (C) [C @@ H] 3CC = C4 [ C @] 3 (C2) C (= O) C [C @ H] 5 [C @ H] 4CC [C @ H] (C6) [C @] 5 (C) Cc (n7) c6nc (C [ C @@] 89 (C)) c7C [C @@ H] 8CC [C @@ H]% 10 [C @@ H] 9C [C @@ H] (O) [C @@]% 11 (C. ) C% 10 = C [C @ H] (O% 12) [C @]% 11 (O) [C @ H] (C) [C @]% 12 (O% 13) [C @ H] ( O) C [C @@]% 13 (C) CO

(Beachten Sie das '%' vor dem Index der Etiketten für den Zyklusschluss größer als 9, siehe Abschnitt „Zyklen“ oben).

Umwandlung

Es gibt Computeralgorithmen , um das Diagramm eines bestimmten Moleküls automatisch in eine SMILES-Kette umzuwandeln. Da es normalerweise keine einzige Beschreibung eines Moleküls gibt, gibt es auch mehrere LÄCHELN, die dieselbe chemische Struktur beschreiben können. Es hängt alles von dem Atom ab, von dem aus wir die Struktur beschreiben, von der Reihenfolge, in der wir die Zweige des Molekülgraphen beschreiben, und von der Art und Weise, wie die Zyklen geöffnet werden. Zum Beispiel sind c1ccccc1o und c1ccc (o) cc1 zwei SMILES-Darstellungen, die gleichbedeutend mit Phenol sind .

Umgekehrt kann die SMILES-Beschreibung eines Moleküls mithilfe von Graphendarstellungsalgorithmen wieder in eine klassische chemische 2D-Darstellung umgewandelt werden.

Mit der SMILES-Methode können Beschreibungen beliebig komplexer Moleküle über eine klassische Textdatei digital ausgetauscht werden. Die SMILES-Darstellung ist sehr kompakt und ermöglicht das einfache Speichern von Dateien mit mehreren hunderttausend Molekülen (chemische Bibliotheken).

Erweiterungen

LÄCHELN Isomer

Es gibt Erweiterungen der SMILES-Sprache, um die Chiralität und Konformation von Doppelbindungen zu beschreiben . Wir können also die R- oder S-Konformation eines asymmetrischen Kohlenstoffs oder die cis / trans-Isomerie beschreiben. Man kann auch die Protonierungszustände, das Vorhandensein spezifischer Isotope und sogar Reaktionsschemata beschreiben.

SMARTS

SMARTS ist eine Erweiterung von SMILES, mit der zusätzlich zu den klassischen Definitionen Atome oder Bindungen durch Platzhalter ersetzt werden können. Dies wird verwendet, um chemische Motive anzugeben, die für die Suche in Moleküldatenbanken (chemische Bibliotheken) verwendet werden. Dies ermöglicht insbesondere die Suche nach chemischen Substrukturen, die zwei Molekülen gemeinsam sind.

Siehe auch

Verweise

  1. D. Weininger; SMILES, „  ein chemisches Sprach- und Informationssystem. 1. Einführung in die Methodik und Kodierungsregeln  “ (1988) J. Chem. Inf. Comput. Sci. 28: 31-36
  2. Theoretisches SMILES-Handbuch .
  3. Chemische Tageslichtinformationssysteme .
  4. [PDF] Isolierung von Pheromonsynergisten des Borkenkäfers Pityogenes chalcographus aus komplexen Insekten-Pflanzen-Gerüchen durch Fraktionierung und subtraktiven Kombinations-Bioassay
  5. PubChem-Verbindung CID = 183413 (Cephalostatin-1)