Формат FASTA

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

У біоінформатиці, формат FASTA є текстовим файловим форматом для зберегання нуклеотидних послідовностей або пептидних послідовностей, у якому нуклеотиди або амінокислоти передаються за допомогою літер. Цей формат також дозволяє передавати опис цих послідовностей та короткий коментар до них. Назва формату походить від програмного пакету FASTA, але цей формат вже став незалежним стандартом у біоінформатиці.

Простота формату FASTA полегшує обробку послідовностей з використанням текстових редакторів та скриптових мов програмування на кшталт Perl, Python та Ruby.

Формат[ред.ред. код]

Послідовність у форматі FASTA починається з рядка, що надає опис послідовності, а наступні рядки передають саму послідовність. Щоб відрізнити рядок опису від послідовності, він починається за символу «більше» ('>'). Перше слово після цього символу зазвичай є ідентифікатором послідовності, таким як номер послідовності у базі даних GenBank. Решта слів у першому рядку можуть передавати будь-яку інформацію стосовно послідовності. Всі слова у першому рядку необов'язкові і можуть бути у вільному форматі. Проте ідентифікатор має слідкувати безпосередньо за символом '>', тобто між '>' та ідентифікатором не має бути пробілів. Формат рекомендує обмежувати довжину рядків до 80 символів. Зазвичай рядки послідовності мають довжину у 60 символів. Послідовність закінчується перед рядком, що починається з символу '>'. Наприклад:

>IMGA|Medtr6g025160.1 F-box family-1 chr06_pseudomolecule_IMGAG_V3.5 5786157-5784331 H EGN_Mt100125 20100825
MNDTGMINFAFVCLLNGDRTINASVLGCWKLYLECGAALSLSAKMRFAYRPFQDIFLNAP
SKGGLDFTQINMNLLSTVEVTCWHYWLFFLLRGIRNPVKRVIQKYSIYDNNDKLSDFPDC
VLLHILSFLNTKYAVQTCVLAKRWKNLWKRLTSLIIGYSHFKDLKGFEYLIHGFFGTRDR
STALQVLNFREECYVGYQSHLEWIVRYAFTHNVKRIRIDVKKVKHLQSYFFSCDTLTSLH
ICVAFPQRTLFPNSLKFPALTYLFLGSFDFGVDDDGRVEPFSAFKRLNSLILQNCRSLDK
QNLCISSATLTNLTIDYDSWALGYCKFELYTPNLCTFVYKGIPPVQQLCGSKSNLSSVKH
ATIVVISLY*
>IMGA|Medtr6g023700.1 Triacylglycerol lipase 2 chr06_pseudomolecule_IMGAG_V3.5 5390597-5393824 H EGN_Mt100125 20100825
MASLGSMNIVTLTFCVIILTTCNHQAHASSRVFLNKKNDKSPIQGLCASSVTIHGFKCEE
HEVITKDGYILSIQRIPEGRSEAKSNVTKKKEPVIVQHGVFVDGATWFLNSPKQNLPMIL
ANNGFDVWIPNTRGTKFSRKHTSLDPSNKTYWDWSWDELVTYEMPAIFDFISKQTGGQKI
HYVGHSLGTLTALASLAEGKWENQVKSVALLSPVAYLSQMKSILGQIAARSLLSKECQEK
LAQSECVGATWKRKYDEAMLKMETMSGEIEQREHEVHKLRRQIVKKNVQIELRAQGYHNL
SAQGSVGSSSKMHIQILMNSLLQRA*