SMILES

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Генерація номера SMILES:
Спочатку кодуються розірвані кільця, потім описується відгалуження від основної структури.

SMILES (англ. Simplified Molecular Input Line Entry Specification) — специфікація спрощеного представлення молекул в рядку введення — система правил (специфікація) однозначного опису складу та структури молекули хімічної речовини з використанням рядка символів ASCII у рядковому типі.

Рядок символів, складений за правилами SMILES, може бути перетворений багатьма молекулярними редакторами у двовимірну або тривимірну структурну формулу молекули.

Початковий варіант специфікації SMILES був розроблений Артуром (Arthur Weininger) і Девідом (David Weininger) Вайнінґерами наприкінці 1980-х[1]. Надалі стандарт був модифікований і розширений; найактивнішу участь у цій роботі взяла компанія Daylight Chemical Information Systems, Inc.

У 2007 році прийнято відкритий стандарт OpenSMILES розроблений Blue Obelisk.

Приклади[ред. | ред. код]

SMILES запис Структурна формула Назва
C CH4 Метан
CC CH3-CH3 Етан
CCC CH3-CH2-CH3 Пропан
Clc(c(Cl)c(Cl)c1C(=O)O)c(Cl)c1Cl C7HCl5O2 Пентахлорбензойна кислота

Принципи побудови SMILES[ред. | ред. код]

Атоми[ред. | ред. код]

Атоми позначаються символами хімічних елементів у квадратних дужках, наприклад, золото позначається як [Au]. Для елементів- складових органічних молекул (B, C, N, O, P, S, F, Cl, Br, I) дужки можуть бути опущені. У цьому випадку атоми водню можна не вказувати в явному вигляді, якщо їх кількість відповідає найменшій нормальній валентності відповідно до явно заданих зв'язків. Атоми в складі ароматичних циклів зазвичай записуються малими літерами замість великих. При необхідності вказати формальний заряд частинки атоми водню і символ заряду записуються в явному вигляді[2]. Ізотопи записуються в квадратних дужках із зазначенням атомної ваги перед символом атома, наприклад, ізотоп 13C буде записаний як [13C].

Наприклад, запис SMILES для води буде виглядати як O, для етанолу — CCO. Аніон гідроксилу записується [OH-], а іон заліза (II) як [Fe+2].

Зв'язки[ред. | ред. код]

Зв'язок Символ опція
Простий зв'язок - так
Подвійний зв'язок = ні
Потрійний зв'язок # ні
Чотирьохкратний зв'язок* $ ні
Ароматичні зв'язки : так

* Лише OpenSMILES


Розгалуження[ред. | ред. код]

Бічні ланцюги молекули поміщають в круглі дужки. Наприклад, пропіонова кислота записується як CCC(= O)O. Канонічна форма запису трифторметану виглядає як C(F)(F)F, однак такий запис незручний для читання внаслідок своєї перевантаженості дужками, тому ту ж молекулу можна записати в неканонічній формі як FC(F)F.


Структурна формула SMILES-String Назва
Essigsäure - Acetic acid.svg CC(=O)O Оцтова кислота
Tert-Butylalkohol.png CC(C)(C)O трет-Бутанол
Nitroglycerin-2D-skeletal.png C(C(CO[N+](=O)[O-])O[N+](=O)[O-])O[N+](=O)[O-] Тринітрат гліцерину

Циклічні структури[ред. | ред. код]

Атоми, що знаходяться на кінцях розірваного при побудові кістяка набору зв'язків, позначаються одним і тим же номером. Наприклад, циклогексан записується як C1CCCCC1, а бензол — як c1ccccc1[3].

Структурна формула SMILES-String Назва
Strukturformel Benzol c1ccccc1 Бензол
Strukturformel Trinitrotoluol Cc1c([N+]([O-])=O)cc([N+]([O-])=O)cc1[N+]([O-])=O Тринітротолуол
Strukturformel Naphthalin C1=CC=C2C=CC=CC2=C1 Нафталін

Примітки[ред. | ред. код]

  1. David Weininger, SMILES, a chemical language and information system. J. Chem. Inf. Comput. Sci.1988, 28, ст 31.
  2. SMILES специфікація Розділ 3.1. Архів оригіналу за 13 липня 2010. Процитовано 25 липня 2010. 
  3. SMILES специфікація Розділ 3.4. Архів оригіналу за 13 липня 2010. Процитовано 25 липня 2010.