Generative pre-trained transformer (GPT) — варіант «штучного інтелекту» — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві відноситься до початкового процесу навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.
Застосування Редагувати
- ChatGPT (Chat Generative Pre-trained Transformer) це чат-бот, запущений OpenAI у листопаді 2022 року. Він використовує GPT-3.5, і налаштований (підхід до перенесення навчання) як на кероване навчання, так і навчання з підкріпленням.
- BioGPT це GPT, який фокусується на відповідях на біомедичні запитання. Він розроблений Microsoft.
- ProtGPT2 це GPT, який зосереджується на білковому дизайні.
Історія Редагувати
Цей розділ містить неперекладені фрагменти англійською мовою. |
11 червня 2018 року OpenAI опублікував статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT). На той момент найефективніші нейронні моделі НЛП в основному використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їх використання в наборах даних, які не були добре анотованими, а також робила надто дорогим і трудомістким навчання надзвичайно великих моделей; багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу. На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.
Архітектура | Кількість параметрів | Training data | Дата релізу | Training cost | |
---|---|---|---|---|---|
GPT-1 | 12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. | 0.12 млрд | BookCorpus: 4.5 GB тексту, from 7000 unpublished книг різних жанрів. | 11.06.2018 | 1 місяць на 8 GPU (1.7e+19 FLOP) |
GPT-2 | GPT-1, але з модифікованою normalization | 1.5 млрд | WebText: 40 ГБ тексту, 8 млн документів, from 45 млн вебсторінок upvoted на Reddit | 14.02.2019(обмежена версія)/05.11.2019(повна версія) | Десятки петафлопс/s-day (1.5e+21 FLOP) |
GPT-3 | GPT-2, but with modification to allow larger scaling. | 175 млрд | 570 ГБ plaintext, 0.4 trillion tokens. Mostly CommonCrawl, WebText, Англійська Вікіпедія, and two books corpora (Books1 and Books2). | 28.05.2020 | 3640 петафлопс/s-day (3.1e+23 FLOP) |
GPT-3.5 | Засекречена | 175 млрд | Інформація засекречена | 15.03.2022 | Інформація засекречена |
GPT-4 | Засекречена | Невідомо | Інформація засекречена | 14.03.2023 | Інформація засекречена (орієнтовно 2.1e+25 FLOP) |
Примітки Редагувати
- Henry Kissinger, Eric Schmidt and Daniel Huttenlocher. A Robot Wrote This Book Review
- https://konkurent.ua/publication/112626/shtuchniy-intelekt-scho-bude-yakscho-ludini-ne-vdastsya-prokontroluvati-tehnologiu/ Штучний інтелект: що буде, якщо людині не вдасться проконтролювати технологію
- Roose, Kevin (5 грудня 2022). The Brilliance and Weirdness of ChatGPT. The New York Times (амер.). оригіналу за 18 січня 2023. Процитовано 26 грудня 2022. «Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.»
- Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. с. 551. ISBN 9781544361376. оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
- Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining.. Brief Bioinform 23 (6). PMID 36156661. doi:10.1093/bib/bbac409.
- Matthias Bastian (29 січня 2023). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder.
- Ferruz, N., Schmidt, S. & Höcker, B. (2022). ProtGPT2 is a deep unsupervised language model for protein design.. Nature Communications volume 13. doi:10.1038/s41467-022-32007-7.
- ↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training. OpenAI. с. 12. оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
- ↑ Tsvetkov, Yulia (22 червня 2017). Opportunities and Challenges in Working with Low-Resource Languages. Carnegie Mellon University. оригіналу за 31 березня 2020. Процитовано 23 січня 2021.
- Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. с. 19–27.