Модель заміщення нуклеотидів

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

У біології модель заміщення нуклеотидів, яку також називають модель еволюції послідовності ДНК, — модель Маркова, яка описує зміни протягом еволюційного часу. Ці моделі описують еволюційні зміни в макромолекулах (наприклад, послідовності ДНК), представлених у вигляді послідовності символів (A, C, G і T у випадку ДНК). Моделі заміщення використовуються для обчислення ймовірності отримання філогенетичних дерев з використанням даних вирівнювання кількох послідовностей. Таким чином, калькуляція моделі заміщення є важливим етапом для оцінки максимальної правдоподібності філогенезу, а також баєсового висновування. Оцінки еволюційних відстаней (кількість замін, які відбулися після того, як пара послідовностей розійшлися від спільного предка) зазвичай розраховуються з використанням моделей заміщення або ж підстановки (еволюційні відстані використовуються як вхідні дані для методів розрахунку еволюційної відстані, таких як приєднання сусідів). Моделі підстановки також є центральними для філогенетичних інваріантів, оскільки їх можна використовувати для прогнозування частоти частот шаблону сайту з урахуванням топології дерева. Моделі заміни необхідні для моделювання даних послідовності для групи організмів, пов'язаних філогенетичними зв'язками.

Множинне вирівнювання послідовностей (у цьому випадку послідовності ДНК) та ілюстрації використання моделей заміщення для еволюційних висновків. Дані в цьому вирівнюванні (представлений схематичний приклад з 18 сайтами) перетворюються на набір шаблонів сайту. Шаблони сайту відображаються разом із кількістю їх вирівнювання. Ці шаблони сайтів використовуються для обчислення ймовірності з урахуванням моделі заміщення та філогенетичного дерева (у цьому випадку неукорінене дерево з чотирьох таксонів). Також необхідно враховувати модель заміщення для оцінки еволюційних відстаней для пар послідовностей (відстані — це кількість замін, які відбулися з тих пір, як послідовності мали спільного предка). Еволюційне рівняння відстані (d 12) засноване на простій моделі, запропонованій Джуксом і Кантором у 1969 році. Рівняння перетворює частку нуклеотидних відмінностей між таксонами 1 і 2 (p 12 = 4/18; чотири моделі сайтів, які відрізняються між таксонами 1 і 2, позначені зірочками) в еволюційну відстань (у цьому випадку d 12 =0,2635 замін на сайт).

Топології філогенетичного дерева та інші параметри[ред. | ред. код]

Топології філогенетичного дерева власне параметром, що цікавить дослідника.[1] Виходячи з цього, довжина гілок та будь-які інші параметри, що описують процес заміни, часто ігноруються. Однак ці параметри також важливі, наприклад, при аналізі інформації викопних реток організмів з літопису скам'янілостей і використанням моделі для оцінки часових рамок еволюції.[2] Інші параметри моделі були використані, щоб отримати уявлення про різні аспекти процесу еволюції. Відношення K <sub id="mwKg">a</sub> /K <sub id="mwKw">s</sub> (також зване ω в моделях заміщення кодонів) є параметром, який цікавить багатьох дослідників. Відношення K a /K s можна використовувати для дослідження дії природного добору на ділянки, що кодують білок;[3] він надає інформацію про відносні швидкості нуклеотидних замін, які змінюють амінокислоти (несинонімічні заміни) на ті, які не змінюють кодовану амінокислоту (синонімічні заміни).

Застосування до даних послідовності[ред. | ред. код]

Більша частина роботи над моделями заміни зосереджена на еволюції між різними послідовності ДНК/ РНК та білка. Моделі еволюції послідовності ДНК, де алфавіт відповідає чотирьом нуклеотидам (A, C, G і T), є, мабуть, найпростішими моделями для розуміння. Моделі, розроблені для анілузу ДНК також можна використовувати для дослідження еволюції РНК-вірусу тому, що РНК також має чотиринуклеотидний алфавіт (A, C, G і U). Проте моделі підстановки можна використовувати для алфавітів будь-якого розміру; як алфавіт можєна розглядати алфавіт — це 20 протеїногенних амінокислот для білків і смислові кодони (тобто 61 кодон, який кодує амінокислоти в стандартному генетичному коді) для вирівняних послідовностей генів, що кодують білок. Фактично, моделі заміщення можуть бути розроблені для будь-яких біологічних ознак, які можуть бути закодовані за допомогою певного алфавіту (наприклад, амінокислотні послідовності в поєднанні з інформацією про конформацію цих амінокислот у тривимірних білкових структурах[4]).

Більшість моделей заміщення, що використовуються для еволюційного дослідження, припускають незалежність між сайтами (тобто ймовірність спостереження будь-якого конкретного шаблону сайту ідентична незалежно від того, де знаходиться шаблон сайту у вирівнюванні послідовності). Це спрощує обчислення ймовірності, оскільки необхідно лише обчислити ймовірність усіх шаблонів сайту, які з'являються у вирівнюванні, а потім використати ці значення для обчислення загальної ймовірності вирівнювання (наприклад, ймовірність трьох шаблонів сайту «GGGG» за певною моделлю еволюції послідовності ДНК — це ймовірність одного сайту «GGGG», піднята до третього ступеня). Це означає, що моделі підстановки можна розглядати як такі, що підтримують специфічний мультиноміальний розподіл для частот шаблонів сайту. Якщо ми розглянемо множинне вирівнювання послідовностей чотирьох послідовностей ДНК, то існує 256 можливих шаблонів сайтів, тож існує 255 ступенів свободи для частот шаблону сайту. Однак можна вказати очікувані частоти шаблону сайту, використовуючи п'ять ступенів свободи, якщо використовувати модель еволюції ДНК Джукса-Кантора[5], яка є простою моделлю заміни, яка дозволяє обчислювати очікувані частоти шаблону сайту для топології дерева та довжину гілок (враховуючи чотири таксони, неукорінене роздвоєне дерево має п'ять довжин гілок).

Моделі заміщення нуклеотидів також дозволяють моделювати дані послідовності за допомогою методів Монте-Карло. Змодельовані множинні вирівнювання послідовностей можна використовувати для оцінки ефективності філогенетичних методів[6] та створення нульового розподілу для певних статистичних тестів у галузях молекулярної еволюції та молекулярної філогенетики. Приклади цих тестів включають тести відповідності моделі[7] та «тест SOWH», який можна використовувати для дослідження топологій дерева.[8][9]

Застосування до морфологічних даних[ред. | ред. код]

Той факт, що моделі заміщення можуть бути використані для аналізу будь-якого біологічного алфавіту, дає можливість розробити моделі еволюції для фенотипових наборів даних[10] (наприклад, морфологічних і поведінкових ознак). Як правило, «0». використовується для вказівки на відсутність ознаки, а «1» використовується для вказівки на її наявність, хоча також можна оцінювати символи за допомогою кількох станів для континуальних або варіабельних ознак. Використовуючи цю структуру, ми можемо закодувати набір фенотипів як двійкові рядки (це можна узагальнити до рядків k -state для символів з більш ніж двома станами) перед аналізом за допомогою відповідного режиму. Це можна проілюструвати на прикладі простої моделі: ми можемо використовувати двійковий алфавіт, щоб побудувати просту філогенію багатоклітинних тварин за фенотиповими ознаками «має пір'я», «кладе яйця», «має хутро», «є теплокровним» і «здатний політ». У цьому прикладі іграшки колібрі матиме послідовність 11011 (більшість інших птахів матиме таку саму нитку), страуси — 11010, велика рогата худоба (та більшість інших наземних ссавців) — 00110, а кажани — 00111. Імовірність філогенетичного дерева потім може бути розрахована за допомогою цих бінарних послідовностей і відповідної моделі заміни. Існування цих морфологічних моделей дає змогу аналізувати матриці даних з викопними таксонами, використовуючи лише морфологічні дані[11] або комбінацію морфологічних і молекулярних даних[12] (при цьому останні були оцінені як відсутні дані для викопних таксонів). .

Існує очевидна схожість між використанням молекулярних або фенотипічних даних у сфері кладистики та аналізом морфологічних ознак за допомогою моделі заміщення. Однак у суспільстві систематичних систем точилися гучні дебати [Архівовано 5 листопада 2021 у Wayback Machine.] [a] щодо питання про те, чи слід розглядати кладистичний аналіз як «безмодельний». Сфера кладистики (визначена в найсуворішому сенсі) сприяє використанню критерію максимальної парсимонії для філогенетичного висновку.[13] Багато кладистів відкидають позицію про те, що максимальна парсимонія заснована на моделі заміни, і (у багатьох випадках) вони виправдовують використання економії, використовуючи філософію Карла Поппера .[14] Однак існування моделей «еквівалентної парсимонії»[15] (тобто моделей підстановки, які дають максимальне дерево парсимонії при використанні для аналізу) дає змогу розглядати парсимонію як модель підстановки.[1]

Молекулярний годинник і одиниці часу[ред. | ред. код]

Як правило, довжина гілки філогенетичного дерева трактується як очікувана кількість замін на сайт; якщо еволюційна модель вказує, що кожен сайт у родовій послідовності зазвичай зазнає x замін до того часу, коли він еволюціонує до послідовності конкретного нащадка, то предок і нащадок вважаються розділеними довжиною гілки x.

Іноді довжину гілки вимірюють у геологічних роках. Наприклад, дані скам'янілостей можуть дати можливість визначити кількість років між видом предків і видами-нащадками. Оскільки деякі види еволюціонують швидше, ніж інші, показники довжини гілок не завжди знаходяться в прямій пропорції. Очікувана кількість замін на сайт на рік часто позначається грецькою літерою mu (μ).

Вважається, що модель має суворий молекулярний годинник, якщо очікувана кількість замін на рік μ є постійною незалежно від того, еволюція якого виду досліджується. Важливим наслідком суворого молекулярного годинника є те, що кількість очікуваних замін між видом-предком і будь-яким із його сучасних нащадків має бути незалежною від того, який вид нащадків досліджується.

Варто зазначити, що припущення про суворий молекулярний годинник часто нереалістичне, особливо протягом тривалих періодів еволюції. Наприклад, незважаючи на те, що гризуни генетично дуже схожі на приматів, вони зазнали набагато більшої кількості замін за оцінений час після розбіжності в деяких областях геному.[16] Це може бути пов'язано з меншим часом генерації,[17] більш високою швидкістю метаболізму, збільшеною структурою популяції, збільшенням швидкості видоутворення або меншим розміром тіла .[18][19] При вивченні давніх подій, таких як кембрійський вибух, за припущенням молекулярного годинника, часто спостерігається низький збіг між кладистичними та філогенетичними даними. Існує кілька досліджень щодо варіабельності швидкість еволюції.[20][21]

Моделі, які можуть враховувати мінливість швидкості молекулярного годинника між різними еволюційними лініями у філогенезі, називаються «розслабленими» на противагу «суворим». У таких моделях враховується, чи швидкість еволюції корелює між предками та нащадками, а варіація швидкості у генеології може бути отримана з багатьох розподілів, але зазвичай застосовуються експоненційні та логнормальні розподіли. Існує окремий випадок, який називається «локальним молекулярним годинником», коли філогенез поділено щонайменше на два розділи (набори еволюційних ліній) і в кожному використовується строгий молекулярний годинник, але з різними темпами.

Реверсивні відносно часу та стаціонарні моделі[ред. | ред. код]

Багато корисних моделей заміни є оборотними в часі; з точки зору математики, для моделі не має значення, яка послідовність є предком, а яка нащадком, доки всі інші параметри (наприклад, кількість замін на сайт, яка очікується між двома послідовностями) залишаються незмінними.

При аналізі реальних біологічних даних, як правило, немає доступу до послідовностей предків, а лише до сучасних видів. Однак, коли модель є оборотною в часі, який вид був родоначальни, не має значення. Натомість філогенетичне дерево можна вкорінити за допомогою будь-якого з видів, пізніше вкорінити на основі нових знань або залишити без вкорінення. Це тому, що не існує «особливих» видів, усі види в кінцевому підсумку походять один від одного з однаковою ймовірністю.

Модель є оборотною в часі тоді і тільки тоді, коли вона задовольняє розраховану математично властивість (позначення пояснюється нижче)

або, еквівалентно, властивість детального балансу ,

для кожного i, j і t .

Зворотність у часі не слід плутати зі стаціонарністю. Модель є стаціонарною, якщо Q не змінюється з часом. Аналіз нижче передбачає стаціонарну модель.

Математика моделей заміщення нуклеотидів[ред. | ред. код]

Стаціонарні, нейтральні, незалежні моделі для ділянок вирівнювання (за умови постійної швидкості еволюції) мають два параметри, π, рівноважний вектор базових (або характерних) частот і матрицю швидкостей Q, яка описує швидкість, з якою основи одного типу можуть перейти на основи іншого типу; елемент для я ≠ j — швидкість, з якою основа i переходить до основи j . Діагоналі Q -матриці вибираються так, щоб сума рядків дорівнювала нулю:

Функція матриці переходів — це функція залежності довжин гілок (в деяких одиницях часу, можливо, у підстановках) до матриці умовних ймовірностей. Це позначається як . Запис в i -му стовпці та j -му рядку, , — ймовірність того, що після часу t є основа j у даній позиції, за умови, що в цій позиції в момент 0 є основа i . Коли модель є оборотною в часі, це можна вирахувати між будь-якими двома послідовностями, навіть якщо одна не є предком для іншої, якщо відома загальна довжина гілок між ними.

Асимптотичні властивості P ij (t) такі, що P ij (0) = δ ij, де δ ij — дельта-функція Кронекера . Тобто не існує розбіжностей у секвенованих основах між самою послідовністю та її секвенованим варінтом. В іншому відношенні, або, іншими словами, коли час йде до нескінченності, ймовірність знайти основу j у положенні, якщо в цьому положенні була основа i, спочатку переходить до рівноважної ймовірності того, що в цьому положенні є основа j, незалежно від початкової основи. Крім того, з цього випливає для всіх t .

Матрицю переходів можна обрахувати з матриці швидкостей за допомогою підведення до степеня матриці :

де Q n — матриця Q, помножена сама на себе в достатню кількість разів, щоб отримати її n-ступінь.

Якщо Q можна діагоналізувати, матричну експоненцію можна обчислити безпосередньо з припущення: нехай Q = U −1 Λ U — діагоналізація Q, з

де Λ — діагональна матриця і де є власне значеннями Q, кожне повторюється відповідно до його множинності. Тоді

де діагональна матриця e Λt задається як

Узагальнена оборотна в часі модель[ред. | ред. код]

Узагальнена оборотна в часі (GTR) є найбільш загальною нейтральною, незалежною моделлю зі скінченними вузлами. Вперше її описав у загальній формі Саймон Таваре у 1986 році[22] . Модель GTR в публікаціях часто називають загальною оборотною моделлю за часом;[23] її також називають моделлю REV.[24]

Параметри GTR для нуклеотидів складаються з рівноважного вектора основної частоти, , вказуючи частоту, з якою кожна нуклеотидна основа трапляється на кожному сайті, і матрицю швидкості

Оскільки модель має бути оборотною в часі і повинна наближатися до рівноважних нуклеотидних частот за довгі часи, кожна швидкість нижче діагоналі дорівнює зворотній швидкості вище діагоналі, помноженій на рівноважне співвідношення двох основ. Таким чином, нуклеотидна модель GTR вимагає 6 параметрів швидкості заміщення і 4 рівноважних параметрів частоти трапляння нуклеотидів. Оскільки 4 параметри частоти повинні сууватися до 1, є лише 3 вільних частотних параметра. Загальна кількість 9 вільних параметрів часто додатково зменшується до 8 параметрів . При вимірюванні часу в замінах ( =1) залишилося лише 8 вільних параметрів.

Загалом, щоб обчислити кількість параметрів, необхідно вирахувати кількість записів над діагоналлю в матриці, тобто для n значень ознак на сайт , а потім додати n-1 для рівноважних частот і відняти 1, оскільки є сталою величиною. З цього отримуємо:

Наприклад, для амінокислотної послідовності (є 20 «стандартних» амінокислот, які складають білки), може бути обраховано 208 параметрів. Однак при вивченні кодуючих ділянок геному частіше працюють з моделлю заміщення кодона (кодон — це три основи, що кодують одну амінокислоту в білку). Існує кодони, в результаті чого кількість вільних параметрів дорвінює 2078. Однак швидкість переходів між кодонами, які відрізняються більш ніж на одну основу, часто вважаються рівною нулю, зменшуючи кількість вільних параметрів до лише параметрів. Іншою поширеною практикою є зменшення кількості кодонів, забороняючи стоп-кодони (або безглузді). Це біологічно обґрунтоване припущення, оскільки включення стоп-кодонів означало б, що обчислюється ймовірність знайти смисловий кодон через час враховуючи, що родоначальний кодон включатиме можливість проходження через стан з передчасним стоп-кодоном.

Альтернативний та широко вживаний[23][25][26][27]спосіб запису миттєвої матриці швидкості ( матриця) для нуклеотидної моделі GTR:

Цей запис легше зрозуміти, ніж запис, який спочатку використовував Таваре, оскільки всі параметри моделі відповідають параметрам «обмінюваності» ( через , який також можна записати за допомогою позначення ) або до рівноважних нуклеотидних частот . Зверніть увагу, що нуклеотиди в матриці записані в алфавітному порядку. Іншими словами, матриця ймовірності переходу для -матриці вище буде:

Деякі публікації пишуть нуклеотиди в іншому порядку (наприклад, деякі автори обирають згрупувати два пурини разом і два піримідини разом; див. також моделі еволюції ДНК). Ця різниця в записах має бути зрозумілою під час написання матриці.

Значення цього запису в тому, що миттєву швидкість зміни від нуклеотиду до нуклеотиду завжди можна записати як , де є обмінюваність нуклеотидів і і  — рівноважна частота нуклеотидів. У наведеній вище матриці використовуються літери через для параметрів обмінюваності в інтересах читабельності, але ці параметри також можуть бути записані систематично за допомогою позначення (наприклад, , , і так далі).

Зауважте, що впорядкування нуклеотидних індексів для параметрів обмінюваності не має значення (наприклад, ), але значення матриці ймовірності переходу має значенн, (тобто це ймовірність спостереження A в послідовності 1 і C в послідовності 2, коли еволюційна відстань між цими послідовностями дорівнює , тоді як  — ймовірність спостереження C в послідовності 1 і A в послідовності 2 на однаковій еволюційній відстані).

Довільно обрані параметри обмінюваності (наприклад, ) зазвичай встановлюється на значення 1, щоб збільшити читабельність оцінок параметрів обмінюваності (оскільки він дозволяє користувачам висловлювати ці значення відносно вибраного параметра обмінюваності). Практика вираження параметрів обмінюваності у відносних показниках не є проблемою, оскільки матриця нормалізована. Нормалізація дозволяє виражати (час) у підведенні до степеня матриці в одиницях очікуваних замін на сайт (стандартна практика молекулярної філогенетики). Це еквівалентно твердженням, що встановлюється швидкість мутації до 1) і зменшення кількості вільних параметрів до восьми. Зокрема, існує п'ять вільних параметрів обміну ( через , які виражаються відносно фіксованого у цьому прикладі) і три рівноважних параметри базової частоти (як описано вище, лише три значення потрібно вказати, оскільки сума повинна складати 1).

Альтернативне позначення також полегшує розуміння підмоделей моделі GTR, які просто відповідають випадкам, коли параметри обмінної та/або рівноважної частоти нуклеотидних основ обмежено приймають однакові значення. Було названо ряд конкретних підмоделей, в основному на основі їх оригінальних публікацій:

Вибрані моделі еволюції ДНК часто використовуються в молекулярній філогенетиці
Модель Обчислювальні параметри Параметри базової частоти Посилання
JC69 (or JC) Jukes and Cantor (1969)[5]
F81 all values free Felsenstein (1981)[28]
K2P (or K80) (трансверсії), (транзитні мутації) Kimura (1980)[29]
HKY85 (трансверсіїтрансверсії), (транзитні мутації) all values free Hasegawa et al. (1985)[30]
K3ST (or K81) ( трансверсіїтрансверсії), ( трансверсіїтрансверсії), (транзитні мутації) Kimura (1981)[31]
TN93 (трансверсіїтрансверсіїтрансверсії), ( транзитні мутації), ( транзитні мутації) all values free Tamura and Nei (1993)[32]
SYM вільно задіяні всі параметри звміни Zharkikh (1994)[33]
GTR (or REV[24]) вільно задіяні всі параметри звміни all values free Tavaré (1986)[22]

Існує 203 можливі способи обмеження параметрів обмінюваності для формування підмоделей GTR[34], починаючи від моделей JC69[5] і F81[28] (де всі параметри обмінюваності рівноцінні) до SYM[33] модель і повна модель GTR[22] (або REV[24]) (де всі параметри обміну вільні). Рівноважні базові частоти зазвичай розглядаються двома різними способами: 1) всіма значення обмежені рівними (тобто, ); або 2) всі значення розглядаються як вільні параметри. Хоча рівноважні частоти нуклеотидів можуть бути обмежені іншими способами, більшість обмежень нереальні з біологічної точки зору. Можливим винятком є забезпечення симетрії ланцюга[35] (тобто обмеження і але дозволяє ).

Альтернативне позначення також дозволяє легко побачити, як модель GTR можна застосувати до біологічних алфавітів з більшим простором станів (наприклад, амінокислоти або кодони). Набір частот станів рівноваги можна записати як , , … і набір параметрів обмінюваності () для будь-якого алфавіту стану характеристик. Ці значення можна використовувати для заповнення матриці шляхом встановлення недіагональних елементів, як показано вище (загальне позначення буде таким ), встановлення діагональних елементів до від'ємної суми недіагональних елементів у тому ж рядку і нормування. Очевидно, для амінокислот і для кодонів (за умови стандартного генетичного коду). Однак загальність цього позначення є вигідною, оскільки для амінокислот можна використовувати скорочені алфавіти. Наприклад, можна використовувати і кодувати амінокислоти шляхом перекодування амінокислот за допомогою шести категорій, запропонованих Маргарет Дейхофф . Зменшені алфавіти амінокислот розглядаються як спосіб зменшити варіацію укладання нуклеотидів та насиченості.[36]

Механістичні та емпіричні моделі[ред. | ред. код]

Основна відмінність еволюційних моделей полягає в тому, скільки параметрів щоразу оцінюється для набору даних, що розглядається, і скільки з них оцінюється один раз на великому наборі даних. Механістичні моделі описують усі заміни як функцію ряду параметрів, які оцінюються для кожного аналізованого набору даних, переважно з використанням максимальної ймовірності. Це має перевагу в тому, що модель можна пристосувати до особливостей конкретного набору даних (наприклад, різні відхилення складу ДНК). Проблеми можуть виникнути, коли використовується занадто багато параметрів, особливо якщо вони можуть компенсувати один одного (це може призвести до дезідентифікації[37]). Тоді часто буває, що набір даних занадто малий, щоб бути достатьо репрезентативним для точної оцінки всіх параметрів.

Емпіричні моделі створюються шляхом оцінки багатьох параметрів (як правило, всіх записів матриці швидкостей еволюції, а також частоти символів нуклеотидів, див. модель GTR вище) з великого набору даних. Ці параметри потім фіксуються і будуть повторно використовуватися для кожного набору даних. Це має перевагу в тому, що ці параметри можна оцінити більш точно. Зазвичай неможливо оцінити всі записи матриці підстановки лише з поточного набору даних. З іншого боку, параметри, оцінені на основі навчальних даних, можуть бути занадто загальними і, отже, погано підходять для будь-якого конкретного набору даних. Потенційним рішенням цієї проблеми є оцінка деяких параметрів на основі даних за допомогою максимальної правдоподібності (або іншого методу). У дослідженнях еволюції білків рівноважні частоти амінокислот (з використанням однолітерних кодів IUPAC для амінокислот для вказівки їх рівноважних частот) часто оцінюються за даними[38], зберігаючи фіксовану матрицю заміни нуклеотидів. Крім загальноприйнятої практики оцінки частоти амінокислот на основі даних, методи оцінки параметрів обмінюваності[39] або коригування було запропоновано матрицю[40] для еволюції білка іншими способами.

Оскільки широкомасштабне секвенування геному все ще продукує дуже велику кількість послідовностей ДНК і білків, доступних даних достатньо для створення емпіричних моделей з будь-якою кількістю параметрів, включаючи емпіричні моделі кодонів.[41] Через проблеми, згадані вище, два підходи часто поєднуються, оцінюючи більшість параметрів одноразово на великомасштабних даних, тоді як кілька параметрів, що залишилися, потім коригуються до набору даних, що розглядається. У наступних розділах наведено огляд різних підходів, використаних для моделей на основі ДНК, білків або кодонів.

Моделі заміщення ДНК[ред. | ред. код]

Перші моделі еволюції ДНК були запропоновані Джуксом і Кантором[5] в 1969 році. Модель Джукса-Кантора (JC або JC69) передбачає рівноважні швидкості переходів, а також рівноважні частоти для всіх основ, і це найпростіша підмодель моделі GTR. У 1980 році Motoo Kimura представив модель з двома параметрами (K2P або K80[29]): один для переходу і один для швидкості трансверсії. Через рік Кімура представив другу модель (K3ST, K3P або K81[31]) з трьома типами заміни: один для швидкості переходу, інший для швидкості трансверсій, які зберігають сильні/слабкі властивості нуклеотидів ( і , призначений Кімура[31]), і один для швидкості трансверсій, які зберігають аміно/кето властивості нуклеотидів ( і , призначений Кімура[31]). У 1981 році Джозеф Фельзенштейн запропонував чотирипараметричну модель (F81[28]), в якій швидкість заміщення відповідає рівноважній частоті цільового нуклеотиду. Хасегава, Кішіно та Яно об'єднали дві останні моделі в п'ятипараметральну модель (HKY[30]). Після цих піонерських зусиль багато додаткових підмоделей моделі GTR були введені в літературу (і загальновживані) у 1990-х роках.[32][33] Інші моделі, які виходять за рамки моделі GTR особливим чином, також були розроблені та вдосконалені кількома дослідниками.[42][43]

Майже всі моделі заміщення нуклеотидів є механістичними моделями (як описано вище). Невелика кількість параметрів, які необхідно оцінити для цих моделей, робить можливим оцінити ці розрахунки на основі даних. Це також необхідно, оскільки моделі еволюції послідовності ДНК часто відрізняються між організмами та між генами всередині організмів. Останній може відображати оптимізацію шляхом дії відбору для конкретних цілей (наприклад, швидка експресія або стабільність інформаційної РНК) або може відображати нейтральні варіації моделей заміщення. Таким чином, залежно від організму та типу гена, ймовірно, необхідно адаптувати модель до цих обставин.

Моделі заміщення двох станів[ред. | ред. код]

Альтернативним способом аналізу даних послідовності ДНК є перекодування нуклеотидів у пурини (R) і піримідини (Y);[44][45] цю практику часто називають RY-кодуванням.[46] Вставки та делеції в множинних вирівнюваннях послідовностей також можуть бути закодовані як двійкові дані[47] та проаналізовані за допомогою моделі з двома можливими станами.[48][49]

Найпростіша модель еволюції послідовності з двома станами називається моделлю Кавендера-Фарріса або моделлю Кавендера-Фарріса- Неймана (CFN); назва цієї моделі відображає той факт, що вона була окремо описана в кількох різних публікаціях.[50][51][52] Модель CFN ідентична моделі Jukes-Cantor, адаптована до двох станів характаристики, і навіть була реалізована як модель «JC2» в популярному програмному забезпеченні IQ-TREE (використання цієї моделі в IQ-TREE вимагає кодування даних як 0 і 1, а не R і Y; популярний програмне забезпечення PAUP* може інтерпретувати матрицю даних, що містить тільки R і Y, як дані для аналізу за допомогою моделі CFN). Також легко аналізувати двійкові дані за допомогою філогенетичного перетворення Адамара .[53] Альтернативна модель двох станів дозволяє рівноважним параметрам частоти R і Y (або 0 і 1) приймати значення, відмінні від 0,5, шляхом додавання одного вільного параметра; ця модель по-різному називається CFu[44] або GTR2 (в IQ-TREE).

Моделі амінокислотного заміщення[ред. | ред. код]

Для багатьох аналізів, особливо для більших еволюційних відстаней, еволюція моделюється на рівні амінокислот. Враховуючи те, що не всі заміни ДНК також змінюють кодовану амінокислоту, інформація втрачається, якщо дивитися на амінокислоти замість нуклеотидних основ. Однак кілька переваг вказує на потребу використання інформації про амінокислоти: ДНК набагато більше схильна виявляти збій у складі, ніж амінокислоти, не всі позиції в ДНК розвиваються з однаковою швидкістю (несинонімічні мутації менш імовірно фіксуються в населення, ніж синонімічні), але, мабуть, найважливіше, через ці позиції, що швидко розвиваються, та обмежений розмір алфавіту (всього чотири можливі стани), ДНК страждає від більшої кількості зворотних замін, що ускладнює точну оцінку еволюційних більших відстаней.

На відміну від моделей ДНК, моделі амінокислот традиційно є емпіричними моделями. Вони були започатковані в 1960-х і 1970-х роках Дейхоффом і його співробітниками, оцінюючи коефіцієнти заміни у амінокислотних вирівнюваннях з принаймні 85 % ідентичності (спочатку з дуже обмеженими даними[54] і в кінцевому підсумку досягли своєї кульмінації в моделі Дайхофа PAM 1978 року[55]). Це зводило до мінімуму шанси спостерігати численні заміни на сайті. З матриці оцінки швидкості було отримано серію матриць ймовірності заміни, відомих під такими назвами, як PAM 250. Матриці логарифмічних шансів, засновані на моделі Дайхофа PAM, зазвичай використовувалися для оцінки значущості результатів пошуку гомології, хоча матриці BLOSUM[56] замінили матриці логарифмічних шансів PAM в цьому контексті, оскільки матриці BLOSUM виявляються більш чутливими для різноманітні еволюційні відстані, на відміну від матриць логарифмічних шансів PAM .[57]

Матриця Дайхофа PAM була джерелом параметрів обмінюваності, використаних в одному з перших аналізів філогенезу з максимальною імовірністю, який використовував дані про білок[58], а модель PAM (або покращена версія моделі PAM під назвою DCMut[59]) й надалі використовується у філогенетиці. Однак обмежена кількість вирівнювань, використовуваних для створення моделі PAM (відображаючи обмежену кількість даних про послідовність, доступних у 1970-х роках), майже напевно збільшувала дисперсію деяких параметрів матриці швидкості (як альтернатива, білки, використані для створення моделі PAM, могли бути теж нерепрезентативним набором. Незважаючи на це, зрозуміло, що модель PAM рідко так добре підходить до більшості наборів даних, як більш сучасні емпіричні моделі (Keane et al. 2006[60] перевірили тисячі білків хребетних, протеобактеріальних і архейних і виявили, що Дайфова PAM модель найкраще підходила до щонайбільше <4 % білків).

Починаючи з 1990-х років, швидкий розвиток баз даних послідовностей завдяки вдосконаленим технологіям секвенування призвів до вираховування багатьох нових емпіричних матриць (повний список див. у[61]). Перші спроби використовували методи, подібні до тих, які використовував Дейхоф, використовуючи широкомасштабне зіставлення бази даних білків для створення нової матриці логарифмічних шансів[62] та моделі JTT (Джонс-Тейлор-Торнтон).[63] Швидке зростання обчислювальної потужності протягом цього часу (що відбиває такі фактори, як закон Мура) зробило можливим оцінити параметри для емпіричних моделей з використанням максимальної ймовірності (наприклад, моделі WAG[38] і LG[64]) та інших методів (наприклад, моделі VT[65] і PMB[66]).

Модель без загального механізму (NCM)[ред. | ред. код]

У 1997 році Таффлі і Стіл[67] описали модель, яку вони назвали моделлю без узагальнюючого механізму. Топологія дерева максимальної правдоподібності для конкретного набору даних з урахуванням моделі NCM ідентична топології оптимального дерева для тих самих даних з урахуванням критерію максимальної парсимонії. Модель NCM передбачає, що всі дані (наприклад, гомологічні нуклеотиди, амінокислоти або морфологічні ознаки) пов'язані загальним філогенетичним деревом. Тоді для кожного гомологічного символу вводяться параметри, де  — кількість послідовностей. Це можна розглядати як оцінку окремого параметра швидкості для кожної пари символ × гілки в наборі даних (варто звернути увагу, що кількість гілок у повністю розв'язаному філогенетичному дереві дорівнює ). Таким чином, кількість вільних параметрів у моделі NCM завжди перевищує кількість гомологічних символів у матриці даних, і модель NCM піддається критиці як постійно «надмірно параметризована».[68]

Посилання[ред. | ред. код]

Посилання[ред. | ред. код]

Примітки[ред. | ред. код]

  1. The link describes the #ParsimonyGate controversy, which provides a concrete example of the debate regarding the philosophical nature of the maximum parsimony criterion. #ParsimonyGate was the reaction on Twitter to an editorial in the journal Cladistics, published by the Willi Hennig Society. The editorial states that the "...epistemological paradigm of this journal is parsimony" and stating that there are philosophical reasons to prefer parsimony to other methods of phylogenetic inference. Since other methods (i.e., maximum likelihood, Bayesian inference, phylogenetic invariants, and most distance methods) of phylogenetic inference are model-based this statement implicitly rejects the notion that parsimony is a model.
  1. а б Steel M, Penny D (June 2000). Parsimony, likelihood, and the role of models in molecular phylogenetics. Molecular Biology and Evolution. 17 (6): 839—50. doi:10.1093/oxfordjournals.molbev.a026364. PMID 10833190.
  2. Bromham L (May 2019). Six Impossible Things before Breakfast: Assumptions, Models, and Belief in Molecular Dating. Trends in Ecology & Evolution. 34 (5): 474—486. doi:10.1016/j.tree.2019.01.017. PMID 30904189.
  3. Yang Z, Bielawski JP (December 2000). Statistical methods for detecting molecular adaptation. Trends in Ecology & Evolution. 15 (12): 496—503. doi:10.1016/s0169-5347(00)01994-7. PMC 7134603. PMID 11114436.
  4. Perron U, Kozlov AM, Stamatakis A, Goldman N, Moal IH (September 2019). Modeling Structural Constraints on Protein Evolution via Side-Chain Conformational States. Molecular Biology and Evolution. 36 (9): 2086—2103. doi:10.1093/molbev/msz122. PMC 6736381. PMID 31114882.
  5. а б в г Evolution of Protein Molecules. Mammalian Protein Metabolism. Т. 3. Elsevier. 1969. с. 21—132. doi:10.1016/b978-1-4832-3211-9.50009-7. ISBN 978-1-4832-3211-9.
  6. Huelsenbeck JP, Hillis DM (1 вересня 1993). Success of Phylogenetic Methods in the Four-Taxon Case. Systematic Biology (англ.). 42 (3): 247—264. doi:10.1093/sysbio/42.3.247. ISSN 1063-5157. Архів оригіналу за 11 березня 2022. Процитовано 12 квітня 2022.
  7. Goldman N (February 1993). Statistical tests of models of DNA substitution. Journal of Molecular Evolution. 36 (2): 182—98. Bibcode:1993JMolE..36..182G. doi:10.1007/BF00166252. PMID 7679448.
  8. Swofford D.L. Olsen G.J. Waddell P.J. Hillis D.M. 1996. «Phylogenetic inference.» in Molecular systematics (ed. Hillis D.M. Moritz C. Mable B.K.) 2nd ed. Sunderland, MA: Sinauer. p. 407—514. ISBN 978-0878932825
  9. Church SH, Ryan JF, Dunn CW (November 2015). Automation and Evaluation of the SOWH Test with SOWHAT. Systematic Biology. 64 (6): 1048—58. doi:10.1093/sysbio/syv055. PMC 4604836. PMID 26231182.
  10. Lewis PO (1 листопада 2001). A likelihood approach to estimating phylogeny from discrete morphological character data. Systematic Biology. 50 (6): 913—25. doi:10.1080/106351501753462876. PMID 12116640.
  11. Lee MS, Cau A, Naish D, Dyke GJ (May 2014). Morphological clocks in paleontology, and a mid-Cretaceous origin of crown Aves. Systematic Biology. 63 (3): 442—9. doi:10.1093/sysbio/syt110. PMID 24449041.
  12. Ronquist F, Klopfstein S, Vilhelmsen L, Schulmeister S, Murray DL, Rasnitsyn AP (December 2012). A total-evidence approach to dating with fossils, applied to the early radiation of the hymenoptera. Systematic Biology. 61 (6): 973—99. doi:10.1093/sysbio/sys058. PMC 3478566. PMID 22723471.
  13. Brower, A. V .Z. (2016). «Are we all cladists?» in Williams, D., Schmitt, M., & Wheeler, Q. (Eds.). The future of phylogenetic systematics: The legacy of Willi Hennig (Systematics Association Special Volume Series Book 86). Cambridge University Press. pp. 88-114 ISBN 978-1107117648
  14. Farris JS, Kluge AG, Carpenter JM (1 травня 2001). Olmstead, R. (ред.). Popper and Likelihood Versus "Popper*". Systematic Biology (англ.). 50 (3): 438—444. doi:10.1080/10635150119150. ISSN 1076-836X. PMID 12116585.
  15. Goldman, Nick (December 1990). Maximum Likelihood Inference of Phylogenetic Trees, with Special Reference to a Poisson Process Model of DNA Substitution and to Parsimony Analyses. Systematic Zoology. 39 (4): 345—361. doi:10.2307/2992355. JSTOR 2992355. Архів оригіналу за 21 січня 2022. Процитовано 12 квітня 2022.
  16. Gu X, Li WH (September 1992). Higher rates of amino acid substitution in rodents than in humans. Molecular Phylogenetics and Evolution. 1 (3): 211—4. doi:10.1016/1055-7903(92)90017-B. PMID 1342937.
  17. Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (February 1996). Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis. Molecular Phylogenetics and Evolution. 5 (1): 182—7. doi:10.1006/mpev.1996.0012. PMID 8673286.
  18. Martin AP, Palumbi SR (May 1993). Body size, metabolic rate, generation time, and the molecular clock. Proceedings of the National Academy of Sciences of the United States of America. 90 (9): 4087—91. Bibcode:1993PNAS...90.4087M. doi:10.1073/pnas.90.9.4087. PMC 46451. PMID 8483925.
  19. Yang Z, Nielsen R (April 1998). Synonymous and nonsynonymous rate variation in nuclear genes of mammals. Journal of Molecular Evolution. 46 (4): 409—18. Bibcode:1998JMolE..46..409Y. CiteSeerX 10.1.1.19.7744. doi:10.1007/PL00006320. PMID 9541535.
  20. Kishino H, Thorne JL, Bruno WJ (March 2001). Performance of a divergence time estimation method under a probabilistic model of rate evolution. Molecular Biology and Evolution. 18 (3): 352—61. doi:10.1093/oxfordjournals.molbev.a003811. PMID 11230536.
  21. Thorne JL, Kishino H, Painter IS (December 1998). Estimating the rate of evolution of the rate of molecular evolution. Molecular Biology and Evolution. 15 (12): 1647—57. doi:10.1093/oxfordjournals.molbev.a025892. PMID 9866200.
  22. а б в Tavaré S. Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences (PDF). Lectures on Mathematics in the Life Sciences. 17: 57—86. Архів оригіналу (PDF) за 25 лютого 2009. Процитовано 12 квітня 2022.
  23. а б Yang, Ziheng (2006). Computational molecular evolution. Oxford: Oxford University Press. ISBN 978-1-4294-5951-8. OCLC 99664975.
  24. а б в Yang Z (July 1994). Estimating the pattern of nucleotide substitution. Journal of Molecular Evolution. 39 (1): 105—11. Bibcode:1994JMolE..39..105Y. doi:10.1007/BF00178256. PMID 8064867.
  25. Swofford, D.L., Olsen, G.J., Waddell, P.J. and Hillis, D.M. (1996) Phylogenetic Inference. In: Hillis, D.M., Moritz, C. and Mable, B.K., Eds., Molecular Systematics, 2nd Edition, Sinauer Associates, Sunderland (MA), 407—514. ISBN 0878932828 ISBN 978-0878932825
  26. Felsenstein, Joseph (2004). Inferring phylogenies. Sunderland, Mass.: Sinauer Associates. ISBN 0-87893-177-5. OCLC 52127769.
  27. (Draft) PAUP* manual. 1997. Архів оригіналу за 31 грудня 2019. Процитовано 31 грудня 2019.
  28. а б в Felsenstein J (November 1981). Evolutionary trees from DNA sequences: a maximum likelihood approach. Journal of Molecular Evolution. 17 (6): 368—76. Bibcode:1981JMolE..17..368F. doi:10.1007/BF01734359. PMID 7288891.
  29. а б Kimura M (December 1980). A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. Journal of Molecular Evolution. 16 (2): 111—20. Bibcode:1980JMolE..16..111K. doi:10.1007/BF01731581. PMID 7463489.
  30. а б Hasegawa M, Kishino H, Yano T (October 1985). Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. Journal of Molecular Evolution. 22 (2): 160—74. Bibcode:1985JMolE..22..160H. doi:10.1007/BF02101694. PMID 3934395.
  31. а б в г Kimura M (January 1981). Estimation of evolutionary distances between homologous nucleotide sequences. Proceedings of the National Academy of Sciences of the United States of America. 78 (1): 454—8. Bibcode:1981PNAS...78..454K. doi:10.1073/pnas.78.1.454. PMC 319072. PMID 6165991.
  32. а б Tamura K, Nei M (May 1993). Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Molecular Biology and Evolution. 10 (3): 512—26. doi:10.1093/oxfordjournals.molbev.a040023. PMID 8336541.
  33. а б в Zharkikh A (September 1994). Estimation of evolutionary distances between nucleotide sequences. Journal of Molecular Evolution. 39 (3): 315—29. Bibcode:1994JMolE..39..315Z. doi:10.1007/BF00160155. PMID 7932793.
  34. Huelsenbeck JP, Larget B, Alfaro ME (June 2004). Bayesian phylogenetic model selection using reversible jump Markov chain Monte Carlo. Molecular Biology and Evolution. 21 (6): 1123—33. doi:10.1093/molbev/msh123. PMID 15034130.
  35. Yap VB, Pachter L (April 2004). Identification of evolutionary hotspots in the rodent genomes. Genome Research. 14 (4): 574—9. doi:10.1101/gr.1967904. PMC 383301. PMID 15059998.
  36. Susko E, Roger AJ (September 2007). On reduced amino acid alphabets for phylogenetic inference. Molecular Biology and Evolution. 24 (9): 2139—50. doi:10.1093/molbev/msm144. PMID 17652333.
  37. Ponciano JM, Burleigh JG, Braun EL, Taper ML (December 2012). Assessing parameter identifiability in phylogenetic models using data cloning. Systematic Biology. 61 (6): 955—72. doi:10.1093/sysbio/sys055. PMC 3478565. PMID 22649181.
  38. а б Whelan S, Goldman N (May 2001). A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach. Molecular Biology and Evolution. 18 (5): 691—9. doi:10.1093/oxfordjournals.molbev.a003851. PMID 11319253.
  39. Braun EL (July 2018). An evolutionary model motivated by physicochemical properties of amino acids reveals variation among proteins. Bioinformatics. 34 (13): i350—i356. doi:10.1093/bioinformatics/bty261. PMC 6022633. PMID 29950007.
  40. Goldman N, Whelan S (November 2002). A novel use of equilibrium frequencies in models of sequence evolution. Molecular Biology and Evolution. 19 (11): 1821—31. doi:10.1093/oxfordjournals.molbev.a004007. PMID 12411592.
  41. Kosiol C, Holmes I, Goldman N (July 2007). An empirical codon model for protein sequence evolution. Molecular Biology and Evolution. 24 (7): 1464—79. doi:10.1093/molbev/msm064. PMID 17400572.
  42. Tamura K (July 1992). Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C-content biases. Molecular Biology and Evolution. 9 (4): 678—87. doi:10.1093/oxfordjournals.molbev.a040752. PMID 1630306.
  43. Halpern AL, Bruno WJ (July 1998). Evolutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Molecular Biology and Evolution. 15 (7): 910—7. doi:10.1093/oxfordjournals.molbev.a025995. PMID 9656490.
  44. а б Braun EL, Kimball RT (August 2002). Examining Basal avian divergences with mitochondrial sequences: model complexity, taxon sampling, and sequence length. Systematic Biology. 51 (4): 614—25. doi:10.1080/10635150290102294. PMID 12228003.
  45. Phillips MJ, Delsuc F, Penny D (July 2004). Genome-scale phylogeny and the detection of systematic biases. Molecular Biology and Evolution. 21 (7): 1455—8. doi:10.1093/molbev/msh137. PMID 15084674.
  46. Ishikawa SA, Inagaki Y, Hashimoto T (January 2012). RY-Coding and Non-Homogeneous Models Can Ameliorate the Maximum-Likelihood Inferences From Nucleotide Sequence Data with Parallel Compositional Heterogeneity. Evolutionary Bioinformatics Online. 8: 357—71. doi:10.4137/EBO.S9017. PMC 3394461. PMID 22798721.
  47. Simmons MP, Ochoterena H (June 2000). Gaps as characters in sequence-based phylogenetic analyses. Systematic Biology. 49 (2): 369—81. doi:10.1093/sysbio/49.2.369. PMID 12118412.
  48. Yuri T, Kimball RT, Harshman J, Bowie RC, Braun MJ, Chojnowski JL та ін. (March 2013). Parsimony and model-based analyses of indels in avian nuclear genes reveal congruent and incongruent phylogenetic signals. Biology. 2 (1): 419—44. doi:10.3390/biology2010419. PMC 4009869. PMID 24832669.
  49. Houde P, Braun EL, Narula N, Minjares U, Mirarab S (6 липня 2019). Phylogenetic Signal of Indels and the Neoavian Radiation. Diversity. 11 (7): 108. doi:10.3390/d11070108.
  50. Cavender JA (August 1978). Taxonomy with confidence. Mathematical Biosciences (англ.). 40 (3–4): 271—280. doi:10.1016/0025-5564(78)90089-5.
  51. Farris JS (1 вересня 1973). A Probability Model for Inferring Evolutionary Trees. Systematic Biology (англ.). 22 (3): 250—256. doi:10.1093/sysbio/22.3.250. ISSN 1063-5157. Архів оригіналу за 20 січня 2022. Процитовано 12 квітня 2022.
  52. Neyman, J. Molecular studies of evolution: A source of novel statistical problems. In Molecular Studies of Evolution: A Source of Novel Statistical Problems; Gupta, S.S., Yackel, J., Eds.; New York Academic Press: New York, NY, USA, 1971; pp. 1–27.
  53. Waddell PJ, Penny D, Moore T (August 1997). Hadamard conjugations and modeling sequence evolution with unequal rates across sites. Molecular Phylogenetics and Evolution. 8 (1): 33—50. doi:10.1006/mpev.1997.0405. PMID 9242594.
  54. A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure. Т. 4. 1969. с. 75—84.
  55. A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure. Т. 5. 1978. с. 345—352.
  56. Henikoff S, Henikoff JG (November 1992). Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences of the United States of America. 89 (22): 10915—9. Bibcode:1992PNAS...8910915H. doi:10.1073/pnas.89.22.10915. PMC 50453. PMID 1438297.
  57. Altschul SF (March 1993). A protein alignment scoring system sensitive at all evolutionary distances. Journal of Molecular Evolution. 36 (3): 290—300. Bibcode:1993JMolE..36..290A. doi:10.1007/BF00160485. PMID 8483166.
  58. Kishino, Hirohisa; Miyata, Takashi; Hasegawa, Masami (August 1990). Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution. 31 (2): 151—160. Bibcode:1990JMolE..31..151K. doi:10.1007/BF02109483.
  59. Kosiol C, Goldman N (February 2005). Different versions of the Dayhoff rate matrix. Molecular Biology and Evolution. 22 (2): 193—9. doi:10.1093/molbev/msi005. PMID 15483331.
  60. Keane TM, Creevey CJ, Pentony MM, Naughton TJ, Mclnerney JO (March 2006). Assessment of methods for amino acid matrix selection and their use on empirical data shows that ad hoc assumptions for choice of matrix are not justified. BMC Evolutionary Biology. 6 (1): 29. doi:10.1186/1471-2148-6-29. PMC 1435933. PMID 16563161.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  61. Bigot T, Guglielmini J, Criscuolo A (July 2019). Simulation data for the estimation of numerical constants for approximating pairwise evolutionary distances between amino acid sequences. Data in Brief. 25: 104212. doi:10.1016/j.dib.2019.104212. PMC 6699465. PMID 31440543.
  62. Gonnet GH, Cohen MA, Benner SA (June 1992). Exhaustive matching of the entire protein sequence database. Science. 256 (5062): 1443—5. Bibcode:1992Sci...256.1443G. doi:10.1126/science.1604319. PMID 1604319.
  63. Jones DT, Taylor WR, Thornton JM (June 1992). The rapid generation of mutation data matrices from protein sequences. Computer Applications in the Biosciences. 8 (3): 275—82. doi:10.1093/bioinformatics/8.3.275. PMID 1633570.
  64. Le SQ, Gascuel O (July 2008). An improved general amino acid replacement matrix. Molecular Biology and Evolution. 25 (7): 1307—20. doi:10.1093/molbev/msn067. PMID 18367465.
  65. Müller T, Vingron M (December 2000). Modeling amino acid replacement. Journal of Computational Biology. 7 (6): 761—76. doi:10.1089/10665270050514918. PMID 11382360.
  66. Veerassamy S, Smith A, Tillier ER (December 2003). A transition probability model for amino acid substitutions from blocks. Journal of Computational Biology. 10 (6): 997—1010. doi:10.1089/106652703322756195. PMID 14980022.
  67. Tuffley C, Steel M (May 1997). Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bulletin of Mathematical Biology. 59 (3): 581—607. doi:10.1007/bf02459467. PMID 9172826.
  68. Holder MT, Lewis PO, Swofford DL (July 2010). The akaike information criterion will not choose the no common mechanism model. Systematic Biology. 59 (4): 477—85. doi:10.1093/sysbio/syq028. PMID 20547783. A good model for phylogenetic inference must be rich enough to deal with sources of noise in the data, but ML estimation conducted using models that are clearly overparameterized can lead to drastically wrong conclusions. The NCM model certainly falls in the realm of being too parameter rich to serve as a justification of the use of parsimony based on it being an ML estimator under a general model.