Пређи на садржај

SMILES

С Википедије, слободне енциклопедије
СМИЛЕС формирање: Отвори прстенове и запиши их као гране на главном атомском низу.

СМИЛЕС, или поједностављена молекулска спецификација инпутних линијских података (енгл. simplified molecular input line entry specification), је спецификација за недвосмислено описивање структуре хемијских молекула користећи релативно кратке АСЦИИ низове симбола.[1][2][3][4] СМИЛЕС ниске се могу учитати у већину молекулских едитора за конверзију назад у дво-димензионалне цртеже или три-димензионалне моделе молекула.

Оригиналну СМИЛЕС спецификацију су развили Arthur Weininger и David Weininger касних 1980-тих година. Она је од тада била модификована и проширена од стране других, поготову од стране компаније Daylight Хемијски Информациони Системи Инц. 2007. године, отворени стандард под именом OpenSMILES је развијен од стране Blue Obelisk слободни-код хемијске заједнице. Неке оф других постојећих 'линеарних' нотација су Wiswesser линијска нотација (WЛН), РОСДАЛ и SLN (Tripos Inc).

Augusta 2006. godine IUPAC je uveo InChI као стандард за репрезентацију формула. За СМИЛЕС се генерално сматра да имају предност у погледу лакоће читања у односу на InChI. Поред тога, СМИЛЕС имају широку базу софтверске подршке са опсежном теоретском (нпр., граф теорија) залеђином.

Терминологија

[уреди | уреди извор]

Термин СМИЛЕС се односи на линијску нотацију за кодирање молекулских структура. Специфични примери структура се стриктно зову СМИЛЕС низови симбола. Међутим, уобичајено да се термин СМИЛЕС користи за појединачне молекуле и за низове молекула; тачно значење је очевидно из контекста. Термини канонички и изомерни могу да доведу до забуне кад су примењени на СМИЛЕС. Термини описују различите атрибуте СМИЛЕС низова знакова, и нису међусобно ексклузивни.

Типично, више једнако валидних СМИЛЕС може бити написано за молекул. На пример, CCO, OCC и C(O)C сви специфицирају структуре етанола. Развијени су алгоритми који омогућавају да се исти СМИЛЕС генерише за молекул независно од редоследа атома у структури. Такви СМИЛЕС су јединствени за сваку структуру, мада су зависни од коришћеног алгоритма за каноникализацију редоследа атома у току њиховог генерисања, и они се називају канонички СМИЛЕС. Ти алгоритми прво конвертују СМИЛЕС у интерну репрезентацију молекулске структуре, и користе молекуларни граф као базу за одређивање јединственог редоследа атома. Они не манипулишу непосредно линеране низове знакова. Различити алгоритми за генерисање каноничких СМИЛЕС су развијени, укључујући оне од стране Daylight Хемијских Информационих система, OpenEye научног софтвера, МЕДИТ и Групе за хемијско рачунарство. Универзални начин примене каноничких СМИЛЕС је индексирање и осигуравање јединствености молекула у базама података.

СМИЛЕС нотација омогућава специфицирање конфигурације на тетраедарским центрима, и геометрије двоструких веза. То су структурне особине које се не могу специфирати само на основу конективности и СМИЛЕС који кодирају те информације се називају изомерни СМИЛЕС. Значајна карактеристика ових правила је да она дозвољавају ригорозну делимичну спецификацију хиралности. Термин изомерни СМИЛЕС се исто користи за СМИЛЕС код којих су изотопи специфицирани.

Граф-базирана дефиниција

[уреди | уреди извор]

У смислу граф базираних рачунарских процедура, СМИЛЕС је ниска која се формира исписивањем симбола чворова у редоследу дубински приоритизоване претраге дрвета хемијског графа. Хемијски граф се припреми одстрањивањем водоникових атома, и отварањем прстенова тако да се формира граф разгранатог дрвета. На местима отварања прстенова, повезани чворови се обележавају нумеричким ознакама. Заграде се користе за означавање гранања стабла.

Атоми су представљени стандардним ознакама хемијских елемената, у угластим заградама, нпр. [Au] за злато. Заграде се могу изоставити за "органски под-скуп": B, C, N, O, P, S, F, Cl, Br, и I. Сви други елементи морају бити наведени у заградама. Ако су заграде изостављене, коректан број имплицитних водоникових атома се подразумева, нпр. СМИЛЕС за воду је једноставно О.

Атом са једним или више електричних набој(а) се окружава заградама (независно од атомског типа), чему следи симбол H ако је атом везан за један или више атома водоника (томе даље следи број водоника уколико их има више: NH4 за амонијум), и иза тога долази знак '+' за позитивни набој или '-' за негативни набој. Број набоја се специфицира после знака (уколико је већи оф један); међутим, исто је могуће написати знак онолико пута колико набоја јон садржи: уместо "Ti+4", може се написати "Ti++++" (Титанијум IV, Ti4+). Из овој следи, да се хидроксид ањон представља са [OH-], оксонијум катјон са [OH3+], и кобалт III катјон (Co3+) ноже бити [Co+3] или [Co+++].

Везе између алифатичних атома се подразумевају да су једноструке уколико није другачије специфицирано и оне произилазе из суседности атома у СМИЛЕС. На пример СМИЛЕС за етанол може бити написан као CCO. Ознаке за затварање прстена се користе за индицирање повезаности између не-суседних атома у СМИЛЕС, што се за циклохексан и диоксан може написати као C1CCCCC1 и O1CCOCC1 респективно. За други прстен, ознаке ће бити 2 (нафталин: c1cccc2c1cccc2), итд. После 9, ознака мора бити предхођена са '%', да бе се могла диференцирати од две различите ознаке везане за исти атом (~C12~ значи да је атом угљеника место затварања прстенова са ознакама 1 и 2, док ~C%12~ индицира само једну ознаку, 12). Двоструке и троструке везе се представљају симболима '=' и '#' респективно као што је илустровану са СМИЛЕС O=C=O (карбон диоксид) и C#N (цијановодоник).

Ароматичност

[уреди | уреди извор]

Ароматични C, O, S и N атоми се пишу малим словима 'c', 'o', 's' и 'н' респективно. Бензен, пиридин и фуран се могу представити са: c1ccccc1, n1ccccc1 и o1cccc1. Везе између ароматичних атома се подразумевају да су ароматичне, мада се оне могу експлицитно специфирати користећи ':' симбол. Ароматични атоми могу бити једноструко везани један с другим, и бифенил се може записати као c1ccccc1-c2ccccc2. Ароматични азот везан за водоник, као што се налази у пиролу мора бити репрезентиран као [nH], и имидазол се пише у СМИЛЕС нотацији као n1c[nH]cc1.

  • Daylight и OpenEye алгоритми за генерисање каноничких СМИЛЕС се разликују у њиховом третману ароматичности.
Визуелизација 3-цијаноанизол као COc(c1)cccc1C#N.

Гранање се описује заградама, као у CCC(=O)O пропионску киселину и C(F)(F)F за флуороформ. Супституисани прстенови се могу написати са тачком грања на рингу као што је илустровано са СМИЛЕС COc(c1)cccc1C#N (погледајте приказ) и COc(cc1)ccc1C#N (погледајте приказ) који кодирају 3 и 4-цијаноанизол изомере. Записивање СМИЛЕС за супституисане прстенове на овај начин чини их лакшим за читање.

Стереохемија

[уреди | уреди извор]

Конфигурација око двоструке везе се специфицира користећи знакове "/" и "\". На пример, F/C=C/F (погледајте приказ) је репрезентација транс-дифлороетена, код које су атоми флора на супротним странама двоструке везе, док F/C=C\F (погледајте приказ) је једна оф могућих репрезентација цис-дифлороетена, код које су F атоми на истој страни двоструке везе, као што је приказано на слици.

Конфигурација на тетрахедралном угљенику се специфицира са @ или @@. L-аланин, распрострањенији енантиомер аминокиселине аланин се може записати као N[C@@H](C)C(=O)O (погледајте приказ). Ознака @@ указује да, кад се посматра од азота дуж везе ка хиралном центру, секвенца супституената је водоник (H), метил (C) и карбоксилат (C(=О)О) у смеру казаљки на сату. D-Аланин се може написати као N[C@H](C)C(=O)O (погледајте приказ). Редослед супституената у СМИЛЕС ниски је веома важан и D-аланин се исто тако може кодирати са N[C@@H](C(=O)O)C (погледајте приказ).

Изотопи се специфицирају са бројем једнаким целобројној изотопској маси испред атомског симбола. Бензен у коме је један атом угљеник-14 се пише као [14c]1ccccc1 и деутерохлороформ је [2H]C(Cl)(Cl)Cl.

Примери примене

[уреди | уреди извор]
Молекул Структура СМИЛЕС Формула
Диазот N≡N N#N
Метил изоцијанат (МИЦ) CH3–N=C=O CN=C=O
Бакар(II) сулфат Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
Оенантотоксин (C17H22O2) Молекуларна структура оенантотоксина CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Пиретрин II (C21H28O3) Молецулар струцтуре оф пyретхрин II COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Афлатоксин Б1 (C17H12O6) Молецулар струцтуре оф афлатоxин Б1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Глукоза (глукопираноза) (C6H12O6) Молецулар струцтуре оф глуцопyраносе OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Кускутин или Бергенин (резин) (C14H16O9) Молецулар струцтуре оф цусцутине (бергенин) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Феромон калифорнијких штитастих ваши (3З,6Р)-3-метхyл-6-(проп-1-ен-2-yл)деца-3,9-диен-1-yл ацетате CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-халкогран : феромон поткорне бубе Pityogenes chalcographus[5] (2С,5Р)-2-етхyл-1,6-диоxаспиро[4.4]нонане CC[C@H](O1)CC[C@@]12CCCO2
Ванилин Молецулар струцтуре оф ваниллин O=Cc1ccc(O)c(OC)c1
Мелатонин (C13H16N2O2) Молецулар струцтуре оф мелатонин CC(=O)NCCC1=CNc2c1cc(OC)cc2
Флавопереирин (C17H15N2) Молецулар струцтуре оф флавопереирин CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Никотин (C10H14N2) Молецулар струцтуре оф ницотине CN1CCC[C@H]1c2cccnc2
Алфа-тујоне (C10H16O) Молецулар струцтуре оф тхујоне CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Тиамин (C12H17ClN4OS+)
(vitamine B1)
СМолецулар струцтуре оф тхиамин OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Илустрација молекула са више од 9 прстенова, Цефалостатин-1[6] (стероидни трисдека циклични пиразин са емпиријском формулом C54H74N2O10 изолованог из Индијског Океана из hemichordata Cephalodiscus gilchristi):

Molecular structure of céphalostatin-1

Počevši od metil radikala na levoj strani slike dobija se:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

(Obratite pažnju na '%' ispred indeksa oznaka zatvaranja prstenova iznad 9, pogledajte paragraf "Veze", iznad).

Drugi SMILES primeri

[уреди | уреди извор]

SMILES notacija je ekstenzivno opisana u SMILES teorijskom uputstvu koje je objavila kompanija Daylight Hemijski Informacioni Sistemi, i brojni ilustrovani primeri su dati. Daylight oruđe za prikaz pruža mogućnost korisnicima da provere njihove SMILES primere, i vredno je edukativno sredstvo.

SMARTS (engl. SMILES arbitrary target specification) je linijska notacija za specifikaciju podstrukturnih obrazaca molekula. Dok ona koristi većinom iste simbole kao SMILES, ona takođe dozvoljava specifikaciju džoker atoma i veza, koji se mogu koristiti za definisanje podstrukturnih upita za pretragu hemijskih baza podataka. Jedna česta miskoncepcija je da se SMARTS-bazirana podstrukturna pretraga sastoji od podudaranja SMILES i SMARTS niski. Zapravo, SMILES i SMARTS niske se prvo konvertuju u internu graf reprezentaciju koja se pretražuje za podgraf izomorfizam. SMIRKS je linijska notacija za specificiranje reakcionih transformacija.

SMILES se mogu konvertovati nazad u 2-dimenzionu reprezentaciju koristeći algoritam za generisanje strukturnog dijagrama (Helson, 1999). Ta konverzija nije uvek nedvosmislena. Konverzija u 3-dimenzionu reprezentaciju se može ostariti putem energijsko minimizacionih pristupa. Postoje mnogi dostupni programi i veb-bazirani konverzioni servisi.

  1. ^ Anderson, E.; Veith, G.D; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures (Report No. EPA/600/M-87/021 изд.). U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804. 
  2. ^ Weininger, D. (1988). „SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules”. J. Chem. Inf. Comput. Sci. 28 (31–36): 31—36. S2CID 5445756. doi:10.1021/ci00057a005. 
  3. ^ Weininger, D.; Weininger, A.; Weininger, J.L. (1989). „SMILES. 2. Algorithm for generation of unique SMILES notation”. J. Chem. Inf. Comput. Sci. 29 (2): 97—101. S2CID 6621315. doi:10.1021/ci00062a008. 
  4. ^ Helson, H.E. (1999). „Structure Diagram Generation”. Rev. Comput. Chem. Edited by Lipkowitz, K. B. And Boyd, D. B. Wiley-VCH, New York: 313—398. 
  5. ^ ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY
  6. ^ PubChem Compound CID=183413 (Cephalostatin-1)
  • Anderson, E.; Veith, G.D; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures (Report No. EPA/600/M-87/021 изд.). U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804. 

Spoljašnje veze

[уреди | уреди извор]

SMILES vezane softverske servisi

[уреди | уреди извор]