Нейронний машинний переклад

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Нейронний машинний переклад (NMT) — різновид машинного перекладу, який передбачає використання штучної нейронної мережі для прогнозування ймовірності послідовності слів, зазвичай шляхом оперування одразу цілими реченнями в одній інтегрованій моделі.

Властивості[ред. | ред. код]

NMT-моделі використовують глибоке навчання та навчання ознакам. Для їх роботи потрібна лише частка пам'яті, необхідної для використання традиційних моделей статистичного машинного перекладу (SMT). Крім того, на відміну від звичайних систем перекладу, усі частини моделі нейронного перекладу навчаються разом від початку до кінця (end-to-end), що дає змогу максимізувати продуктивність перекладу[1][2] [3].

Історія[ред. | ред. код]

Уперше програми глибокого навчання почали застосовувати в 1990-х роках у задачах із розпізнавання мовлення.

Перша наукова стаття про використання нейронних мереж у машинному перекладі з'явилася у 2014 році, а впродовж кількох наступних із її допомогою вдалося вирішити чимало інших задач. Станом на 2017 рік це такі системи:

  • NMT-системи з великим словником (Large-Vocabulary NMT)
  • NMT-системи з урахуванням частин слів (Subword-NMT)
  • Багатомовні NMT-системи (Multilingual NMT)
  • NMT-системи з багатьма джерелами (Multi-Source NMT)
  • NMT-системи без джерел (Zero-Resource NMT)
  • NMT-системи на рівні символів (Character-dec NMT)
  • Повносимвольні NMT-системи (Fully Character-NMT)
  • NMT-системи без підготовки (Zero-Shot NMT)
  • Google
  • Додаток для захоплення зображень.

У 2015 році NMT-система вперше з'явилася на відкритому конкурсі машинного перекладу (OpenMT '15[4]). На WMT '15 теж уперше взяв участь NMT-претендент[5]; наступного року серед переможців було вже 90 % NMT-систем[6].

З 2017 року Європейське патентне відомство використовує нейронний машинний переклад для миттєвого надання доступу до інформації, вміщеної у глобальній патентній системі[7]}}. Система, розроблена у співпраці з Google, працює 31 мовою. Станом на 2018 рік система переклала понад 9 млн документів[7]}}.

Напрацювання[ред. | ред. код]

NMT-система є розвитком статистичного підходу на рівні фраз, який працює на основі незалежних підкомпонентів[8]. Нейронний машинний переклад (NMT) не є кардинальною відмовою від статистичного машинного перекладу (SMT). Його основним вихідним пунктом є використання векторного подання слів і внутрішніх станів — «вбудовування» (embeddings), «подання в неперервному просторі» (continuous space representations).

Структура NMT-моделей простіша порівняно зі структурою моделей на основі фраз: у ній немає окремої мовної моделі, моделі перекладу та моделі перевпорядкування, а є лише одна модель послідовностей, яка передбачає одне слово за раз. Однак це передбачення послідовності слів спирається одразу на все вихідне речення та на всю вже створену цільову послідовність.

Перші спроби моделювання послідовності слів зазвичай проводилися за допомогою рекурентної нейронної мережі (RNN). Двонаправлена рекурентна нейронна мережа, так званий кодувальник (encoder), використовується для кодування вихідного речення для другої RNN, відомого як розкодувальник (decoder), а та, своєю чергою, використовується для передбачення слів цільовою мовою[9].

Перед рекурентними нейронними мережами постають труднощі під час кодування довгих вхідних даних в один вектор. Їх можна подолати за допомогою механізму уваги (attention mechanism)[10], який дає декодувальнику змогу зосереджуватися на різних частинах вхідних даних під час генерації кожного вихідного слова. Існують моделі покриття (coverage models) для вирішення проблем у таких механізмах уваги, які призводять до генерування надто довгого або надто короткого перекладу[11] (наприклад, ігнорування наявної інформації про вирівнювання).

Згорткові нейронні мережі (convnets) дещо краще обробляють довгі неперервні послідовності, але певний час їх не використовували через наявність кількох недоліків. У 2017 році ці недоліки вдалося успішно подолати за допомогою «механізмів уваги»[12].

Домінуючою архітектурою для кількох мовних пар залишається модель Transformer, яка базується на механізмі уваги[13]. На рівнях «самоуваги» цієї моделі досліджуються залежності між словами послідовності шляхом аналізу зв'язків між усіма словами в парних послідовностях і безпосереднього моделювання цих зв'язків. Цей підхід простіший, ніж механізм селекції, на якому працюють рекурентні нейронні мережі. А його простота дала дослідникам змогу розробляти високоякісні моделі перекладу за допомогою моделі Transformer, навіть в умовах, коли кількість вхідних даних невелика.

Приклади застосування[ред. | ред. код]

Нейронний переклад використовується у сервісах перекладу багатьох компаній — як-от Google, Microsoft, Яндекс, ПРОМТ.

  • Google використовує особливий різновид нейронного машинного перекладу — так званий Google Neural Machine Translation (GNMT).
  • Майкрософт використовує подібну технологію для перекладу мовлення — зокрема, у Майкрософт Перекладачі та Skype Перекладачі.
  • Гарвардська група з обробки природної мови випустила OpenNMT — систему нейронного машинного перекладу з відкритим вихідних кодом[14].
  • У Яндекс.Перекладачі використовується гібридна модель: свій варіант перекладу пропонує і статистична модель, і нейромережа, після чого за допомогою технології CatBoost[15], яка працює на основі машинного навчання, вибирається кращий з отриманих результатів.

Пропонувати системи на основі нейронних мереж почали й інші постачальники машинного перекладу, зокрема Omniscien Technologies (раніше Asia Online)[16], KantanMT, SDL[17], Globalese[18], Systran[19] тощо. DeepL надає загальну систему перекладу із системами штучного інтелекту глибокого навчання.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Kalchbrenner, Nal; Blunsom, Philip (2013). Recurrent Continuous Translation Models. Proceedings of the Association for Computational Linguistics: 1700—1709.
  2. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). «Sequence to sequence learning with neural networks». arXiv:1409.3215 [cs.CL]. 
  3. Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 September 2014). «On the Properties of Neural Machine Translation: Encoder–Decoder Approaches». arXiv:1409.1259 [cs.CL]. 
  4. OpenMT Challenge 2015. NIST (англ.). 11 вересня 2015. Процитовано 27 липня 2022.
  5. WMT15. Machine Translate (амер.). Процитовано 27 липня 2022.
  6. Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). Findings of the 2016 Conference on Machine Translation (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131—198. Архів оригіналу (PDF) за 27 січня 2018. Процитовано 27 січня 2018.
  7. а б Neural Machine Translation. European Patent Office. 16 липня 2018. Процитовано 14 червня 2021.
  8. Wołk, Krzysztof; Marasek, Krzysztof (2015). Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts. Procedia Computer Science. 64 (64): 2—9. arXiv:1509.08644. Bibcode:2015arXiv150908644W. doi:10.1016/j.procs.2015.08.456. S2CID 15218663.
  9. Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL]. 
  10. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014-09-01). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL]. 
  11. Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). «Modeling Coverage for Neural Machine Translation». arXiv:1601.04811 [cs.CL]. 
  12. Coldewey, Devin (29 серпня 2017). DeepL schools other online translators with clever machine learning. TechCrunch. Процитовано 27 січня 2018.
  13. Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp (August 2019). Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1—61. doi:10.18653/v1/W19-5301.
  14. OpenNMT - Open-Source Neural Machine Translation. opennmt.net. Процитовано 27 липня 2022.
  15. CatBoost - state-of-the-art open-source gradient boosting library with categorical features support. catboost.ai (англ.). Процитовано 27 липня 2022.
  16. Machine Translation. Omniscien Technologies (амер.). Процитовано 27 липня 2022.
  17. SDL Brings Powerful Cloud-Based Neural Machine Translation to Global Brands. www.rws.com (амер.). Процитовано 27 липня 2022.
  18. Horváth, Greg (5 вересня 2017). Globalese 3.0 released. Globalese (амер.). Процитовано 27 липня 2022.
  19. Neural Machine Translation (NMT) | SYSTRAN. www.systransoft.com (англ.). Процитовано 27 липня 2022.