SMIL

SMILES ( akronym for Simplified Molecular Input Line Entry System [1] ) er en metode for å beskrive strukturen til et molekyl ved hjelp av en kort ASCII -streng .

SMILES-strenger importeres av de fleste molekyldesignprogramvare for å lage todimensjonale eller tredimensjonale modeller.

SMILES-kodingen ble utviklet i 1980 av Arthur Weininger og David Weininger, deretter modifisert og utvidet av andre, hvorav den største er Daylight Chemical Information Systems Inc. Andre lineære notasjoner er Wiswesser Line Notation (WLN), ROSDAL og SLN (Tripos Inc). Nylig introduserte IUPAC InChI ( International Chemical Identifier ) ​​som en standard for å representere formler.

Kanoniske SMILES og isomere SMILES

Begrepet kanoniske SMILES ( Canonical SMILES ) indikerer versjonen av SMILES-spesifikasjonen som dikterer reglene slik at hvert molekyl kun har én SMILES-representasjon. En vanlig applikasjon er indeksering av molekyler i en database .

Begrepet SMILES Isomeric ( Isomeric SMILES ) indikerer versjonen av SMILES-spesifikasjonen som inkluderer regler for spesifikasjon av isomerer , chiralitet og dobbeltbindingskonfigurasjoner.

SMILES som en representasjon av en graf

Når det gjelder beregningsprosedyrer basert på grafer , er SMILES en streng oppnådd ved å skrive ut symbolene til nodene på grafen som representerer strukturformelen. Hydrogenatomene fjernes først fra grafen , deretter åpnes løkkene for å konvertere grafen til et åpent tre . Der løkker har blitt åpnet, legges numeriske suffikser til for å indikere hvilke noder som er koblet til. Treets grener er indikert ved bruk av parenteser.

Eksempler

Atomer er representert ved å bruke deres kjemiske symbol omsluttet av firkantede parenteser, for eksempel [Au] for gull . Hydroksydanionet er [ OH- ]. De firkantede parentesene kan utelates for de "organiske" atomene C , N , O , P , S , Br , Cl og I. Alle andre elementer må omsluttes i firkantede parenteser. Hvis firkantede parenteser utelates, antas antallet hydrogenatomer å være underforstått; for eksempel er SMILES for vann ganske enkelt O og for etanol er det CCO.

Dobbeltbindingen av karbondioksid er representert som O = C = O og trippelbindingen av hydrogencyanid som C # N.

Sykloheksan er representert som C1CCCCC1 , ideen er at de to indikerer samme posisjon i molekylet, og danner dermed en ring med seks karbonatomer. Merk at det er tallet (i dette tilfellet 1) som representerer posisjonen i stedet for kombinasjonen "C1". Her er den utvidede notasjonen for å klargjøre: (C1) - (C) - (C) - (C) - (C) - (C) -1 i stedet for (C1) - (C) - (C) - (C) - (C) - (C) - (Cl).

De aromatiske C-, O-, S- og N-atomene er representert med deres små bokstaver, henholdsvis 'c', 'o', 's' og 'n'.

Grener er representert med runde parenteser, for eksempel CCC (= O) O for propionsyre og C (F) (F) F for fluoroform , som også kan beskrives med den ikke-kanoniske formelen: FC (F) F .

Isomere SMIL

Dobbelbindingskonfigurasjoner er representert ved å bruke tegnene "/" og "\". For eksempel representerer F / C = C / F trans - difluoretylen , hvor fluoratomene er på motsatt side av dobbeltbindingen, mens F / C = C \ F representerer cis - difluoretylen, hvor fluoratomene er på samme side som dobbeltbindingen.

Utvidelser

SMARTS er en variant av SMILES som tillater indikasjon av atomer og "jokertegn"-bindinger. Denne funksjonen brukes mye i søkealgoritmer for kjemiske datadatabaser.

Merknader

  1. ^ IUPAC Gold Book , "SMILES "

Relaterte elementer

Andre prosjekter

Eksterne lenker