Qwen
| Тип | чат-бот і велика мовна модель |
|---|---|
| Розробник | Alibaba Cloud |
| Перший випуск | 2024 |
| Стабільний випуск | 2.5 |
| Доступні мови | Багатомовна (29+ мов) |
| Ліцензія | (Apache 2.0) |
| Вебсайт | qwen-ai.com |
Qwen (також звана Tongyi Qianwen, кит. трад. 通义千问) — сімейство великих мовних моделей, розроблених Alibaba. У липні 2024 року модель була визнана найкращою китайськомовною моделлю за деякими тестами[1].
Alibaba вперше представила бета-версію Qwen у квітні 2023 року під назвою Tongyi Qianwen[2]. Вона була публічно випущена у вересні 2023 року після схвалення з боку китайського уряду. У грудні 2023 року компанія випустила у відкритий доступ моделі 72B та 1.8B, а Qwen 7B була відкрита у серпні[3].
У червні 2024 Alibaba запустила Qwen 2, а у вересні випустила деякі її моделі у відкритий код, зберігши при цьому найпередовіші версії закритими[4]. Qwen 2 використовує модель обробки — Змішення експертів[5].
У листопаді 2024 року була випущена QwQ-32B-Preview — модель, орієнтована на логічні міркування, аналогічна o1 від OpenAI. Вона була випущена під ліцензією Apache 2.0, але при цьому були оприлюднені лише ваги, без датасету та методу навчання.[6][7] QwQ має контекстну довжину в 32 000 токенів і перевищує o1 за деякими тестами[8].
Серія Qwen-VL є лінійкою візуально-мовних моделей, які поєднують трансформер візуального сприйняття з LLM[9]. Alibaba випустила Qwen-VL2 з варіантами на 2 та 7 мільярдів параметрів. Флагманською моделлю компанії в галузі комп'ютерного зору є Qwen-vl-max, яка продається через Alibaba Cloud за ціною 0,00041 долара США за тисячу вхідних токенів[10].
Alibaba також випустила кілька інших типів моделей, таких як Qwen-Audio та Qwen2-Math[11]. Загалом компанія відкрила вихідний код понад 100 моделей, а їх моделі було завантажено понад 40 мільйонів разів[12]. Ентузіастами були розроблені донавчені версії Qwen, такі як «Liberated Qwen», створена компанією Abacus AI із Сан-Франциско. Ця версія дозволяє відповідати на будь-які запити без обмежень на зміст[13].
У січні 2025 року Alibaba запустила Qwen 2.5-Max, свою найновішу і найпотужнішу модель на сьогоднішній день[14]. Згідно з блог-постом Alibaba, Qwen 2.5-Max перевершує інші базові моделі, такі як GPT-4o, DeepSeek-V3 та Llama-3.1-405B, за ключовими показниками[14]. Незвичний момент для випуску Qwen 2.5-Max, що припав на перший день Китайського Нового року, коли більшість китайців святкують, свідчить про тиск, який створило швидке зростання стартапу DeepSeek за останні три тижні перед вимушеним запуском Qwen[15].
- Величезна база знань — модель навчена на 18 трильйонах токенів, що забезпечує глибоке розуміння контексту і дозволяє інтерпретувати складні запити[16].
- Розширені вікна контексту — Обробка даних до 128 000 токенів дозволяє працювати з великими документами та складними завданнями[17].
- Просунута генерація коду — варіант моделі Qwen2.5-Coder призначений для написання, аналізу та оптимізації програмного коду[18].
- Багатомовна підтримка — понад 29 мов, включаючи англійську, китайську, французьку, іспанську та інші[19].
- Покращені математичні здібності — спеціалізована версія Qwen2.5-Math справляється з багатокроковими обчисленнями та аналітичними завданнями[20].
- Розробка програмного забезпечення — автоматична генерація коду, налагодження, документація.
- Аналіз даних — обробка великих наборів даних, математичні обчислення, звіти.
- Освіта — створення навчальних матеріалів, допомога у дослідницьких роботах.
- Бізнес — оптимізація процесів, взаємодія з клієнтами, бізнес-аналітика[21].
- ↑ Qwen 2.5 Overview. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Chiang, Sheila (11 квітня 2023). Alibaba to roll out its rival to ChatGPT across all its products. CNBC (англ.).
- ↑ Jiang, Ben (13 вересня 2023). Alibaba opens Tongyi Qianwen model to public as new CEO embraces AI. South China Morning Post (англ.).
- ↑ Jiang, Ben (7 червня 2024). Alibaba says new AI model Qwen2 bests Meta's Llama 3 in tasks like maths and coding. South China Morning Post (англ.).
- ↑ Yang, An; Yang, Baosong (10 вересня 2024). Qwen2 Technical Report. arXiv:2407.10671 [cs.CL].
- ↑ Franzen, Carl (8 серпня 2024). Alibaba claims no. 1 spot in AI math models with Qwen2-Math. VentureBeat.
- ↑ 故渊 (28 листопада 2024). 阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型 - IT之家. www.ithome.com.
- ↑ Wiggers, Kyle (27 листопада 2024). Alibaba releases an 'open' challenger to OpenAI's o1 reasoning model. TechCrunch.
- ↑ Bai, Jinze; Bai, Shuai (28 вересня 2023). Qwen Technical Report. arXiv:2309.16609 [cs.CL].
- ↑ Jiang, Ben (11 липня 2024). Alibaba's open-source AI model tops Chinese rivals, ranks 3rd globally. South China Morning Post (англ.).
- ↑ Dickson, Ben (29 листопада 2024). Alibaba releases Qwen with Questions, an open reasoning model that beats o1-preview. VentureBeat.
- ↑ Kharpal, Arjun (19 вересня 2024). China's Alibaba launches over 100 new open-source AI models, releases text-to-video generation tool. CNBC (англ.).
- ↑ Mims, Christopher (19 квітня 2024). Here Come the Anti-Woke AIs. WSJ.
- ↑ а б Alibaba презентувала ШІ-модель Qwen 2.5-Max. Кажуть, що краще за DeepSeek та OpenAI. LIGA (укр.). 29 січня 2025. Процитовано 30 січня 2025.
- ↑ Alibaba представила нову модель ШІ Qwen 2.5-Max. mezha.media (укр.). 29 січня 2025. Процитовано 30 січня 2025.
- ↑ Qwen 2.5 Training Data. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Qwen 2.5 Context Length. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Qwen 2.5 Coding Capabilities. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Qwen 2.5 Multilingual Support. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Qwen 2.5 Math Capabilities. Alibaba Cloud. Процитовано 29 січня 2025.
- ↑ Qwen 2.5 Use Cases. Alibaba Cloud. Процитовано 29 січня 2025.