Generative pre-trained transformer

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Модель GPT

Generative pre-trained transformer (GPT) — варіант «штучного інтелекту»[1][2] — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві відноситься до початкового процесу навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.

Застосування[ред. | ред. код]

Історія[ред. | ред. код]

11 червня 2018 року OpenAI опублікував статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT).[8] На той момент найефективніші нейронні моделі НЛП в основному використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їх використання в наборах даних, які не були добре анотованими, а також робила надто дорогим і трудомістким навчання надзвичайно великих моделей;[8][9] багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу.[9] На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.[8]

Версії GPT
Архітектура Кількість параметрів Training data Дата релізу Training cost
GPT-1 12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. 0.12 млрд BookCorpus:[10] 4.5 GB тексту, from 7000 unpublished книг різних жанрів. 11.06.2018 1 місяць на 8 GPU (1.7e+19 FLOP)
GPT-2 GPT-1, але з модифікованою normalization 1.5 млрд WebText: 40 ГБ тексту, 8 млн документів, from 45 млн вебсторінок upvoted на Reddit 14.02.2019(обмежена версія)/05.11.2019(повна версія) Десятки петафлопс/s-day (1.5e+21 FLOP)
GPT-3 GPT-2, but with modification to allow larger scaling. 175 млрд 570 ГБ plaintext, 0.4 trillion tokens. Mostly CommonCrawl, WebText, Англійська Вікіпедія, and two books corpora (Books1 and Books2). 28.05.2020 3640 петафлопс/s-day (3.1e+23 FLOP)
GPT-3.5 Засекречена 175 млрд Інформація засекречена 15.03.2022 Інформація засекречена
GPT-4 Засекречена Невідомо Інформація засекречена 14.03.2023 Інформація засекречена (орієнтовно 2.1e+25 FLOP)

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Henry Kissinger, Eric Schmidt and Daniel Huttenlocher. A Robot Wrote This Book Review
  2. https://konkurent.ua/publication/112626/shtuchniy-intelekt-scho-bude-yakscho-ludini-ne-vdastsya-prokontroluvati-tehnologiu/ Штучний інтелект: що буде, якщо людині не вдасться проконтролювати технологію
  3. Roose, Kevin (5 грудня 2022). The Brilliance and Weirdness of ChatGPT. The New York Times (амер.). Архів оригіналу за 18 січня 2023. Процитовано 26 грудня 2022. Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.
  4. Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. с. 551. ISBN 9781544361376. Архів оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
  5. Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H та ін. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
  6. Matthias Bastian (29 січня 2023). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder.
  7. Ferruz, N., Schmidt, S. & Höcker, B. та ін. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nature Communications volume. 13. doi:10.1038/s41467-022-32007-7.
  8. а б в Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. Архів (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
  9. а б Tsvetkov, Yulia (22 червня 2017). Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. Архів (PDF) оригіналу за 31 березня 2020. Процитовано 23 січня 2021.
  10. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19—27.