GenBank

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Сотий реліз GenBank на CD диску

GenBank — публічно доступна база даних нуклеотидних послідовностей і супровідних анотацій для більш як 300 000 видів. Дані вносяться як окремими лабораторіями, так і великомасштабними проектами повного секвенування геномів, Патентне відомство США також доповнює GenBank послідовностями із виданих патентів. Розробкою і розповсюдженням GenBank займається Національний центр біотехнологічної інформації. Ця база даних разом із DDBJ (англ. DAN Database of Japan) та ENA (англ. European Nucleotide Archive), з якими вона щоденно обмінюється даними, входить до Міжнародної співпраці баз даних нуклеотидних послідовностей. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ[1].

GenBank можна використовувати через систему Entrez NCBI, яка інтегрує інформацію із широкого спектру баз даних NCBI. NCBI Nucleotide поділений на три розділи: CoreNucleotide (основна частина), dbEST (Expressed Sequence Tags) і dbGSS (Genome Survey Sequences). Cервіс BLAST дозволяє порівнювати послідовності GenBank між собою та із послідовностями з інших джерел[2][3].

Поділ на розділи[ред.ред. код]

GenBank категоризує послідовності до кількох розділів в залежності від організму джерела або способу отримання даних[1].

Розділ Опис Кількість даних у релізі 203 (8/2014)
PRI Послідовності приматів 6697769597
ROD Послідовності гризунів 4467459537
MAM Послідовності інших ссавців 951689720
VRT Інші хребетні 3188004508
INV Послідовності безхребетних 3085847038
PLN Рослинні послідовності 9012205825
BCT Бактерійні послідовності 187345
VRL Вірусні послідовності 2125907663
PHG Послідовності бактеріофагів 146804958
SYN Синтетичні послідовності 976696717
UNA Неанотовані послідовності 187345
WSG Дані секвенування повного геному методом дробовика (англ. Whole genome shotgun) 774052098731
ENV Зразки із навколишнього середовища 4297282924
PAT Запатентовані послідовності 14647872659
TSA Дані секвенування транскриптому методом дробовика 9323352861
HTC Дані високопродуктивного секвенування кДНК 671972485
HTG Дані високопродуктивного секвенування геномної ДНК 25386830568
GSS Genome survey sequences 24293870378
EST Expressed sequence tags 42086482490
STS Sequence tagged sites 640701468

Поділ на розділи за організмами є історичним і не відображає сучасної класифікації. Через це, а також тому, що частина послідовностей певного організму можуть перебувати у розділі за технологією (наприклад, EST або HTG), для пошуку даних за організмом слід використовувати NCBI Taxonomy Browser.

Ідентифікатори і номери доступу послідовностей[ред.ред. код]

Кожному запису, що складається із послідовності і супутньої інформації, присвоюється унікальний номер доступу, спільний для трьох баз даних, що співпрацюють (GenBank, DDBJ, ENA). Цей номер можна знайти у рядку ACCESSION відповідного запису. Він не змінюється впродовж всього часу існування запису, навіть якщо дані оновлюються. Натомість, зміни відображаються за допомогою суфікса номера доступу, що позначає версію. Початковою версією послідовності завжди є '.1'. Кожній версії нуклеотидної послідовності також присвоюється унікальний NCBI ідентифікатор — GI, його можна знайти у рядку VERSION, наприклад U49845.1 GI:1293613. Коли дані про послідовність оновлюються, нова версія отримує інший GI, а версія номеру доступу інкрементується. З номером доступу без вказання версії можна знайти найновіші дані. Записи GenBank рекомендується цитувати із використанням номеру доступу із вказанням версії[1].

Завантаження вмісту[ред.ред. код]

Що два місяці NCBI випускає новий повний реліз GenBank, який можна безкоштовно завантажити через FTP. Крім того, щоденно виходять оновлення також вільні до завантаження[1].

Примітки[ред.ред. код]

  1. а б в г Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (2015). GenBank. Nucleic Acids Res. 43(Database issue):D30-5. PMID 25414350. doi:10.1093/nar/gku1216. 
  2. GenBank Overview. NCBI. Процитовано 11 листопада 2015. 
  3. Jonathan Pevsner (2009). Bioinformatics and Functional Genomics (вид. 2nd). Wiley. с. 14-23. ISBN 978-0-470-08585-1. 

Посилання[ред.ред. код]

  • GenBank Overview. NCBI. Процитовано 11 листопада 2015. 
  • Sample GenBank Record. NCBI. Процитовано 11 листопада 2015.  — зразок запису на GenBank