Корпус текстів
У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.
лінгві́стика (від. лат. lingua — мова) — наука, що вивчає мову в усій складності її прояву; наука про мову взагалі й окремі мови світу як індивідуальних її представників. Це гуманітарна наука з розділу культурології (нарівні з мистецтвознавством і літературознавством) і філології (нарівні з літературознавством), а також з галузі семіотики. Як самостійна дисципліна сформувалася в середині XIX століття.
Перевірка статистичних гіпотез — клас базових задач в математичній статистиці, що полягають у перевірці статистичних гіпотез на основі даних спостереження за процесом, який моделюється за допомогою множини випадкових величин. Перевірка статистичних гіпотез є методом статистичного висновування. Альтернативний метод перевірки статистичних гіпотез полягає у визначенні множини статистичних моделей, по одній для кожної гіпотези кандидата, після чого використовуються техніки відбору моделі, аби вибрати ту, яка підходить найбільше. Найбільш загальні техніки відбору моделей основані на інформаційному критерії Акаіке або коефіцієнті Баєса.
Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.
Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.
Попри різноманітність наукових підходів, фахівці виділяють чотири ключові ознаки, які відрізняють корпус від звичайної бібліотеки чи архіву:
- Цифрова природа (електронний формат) : у сучасній науці корпус існує виключно як масив даних, що придатний для автоматизованого пошуку та миттєвої комп'ютерної обробки.
- Репрезентативність: склад корпусу має бути збалансованим і пропорційним, щоб максимально точно відтворювати стан мови (або її певного сегмента), яку він моделює.
- Наявність анотації (розмітка): це фундаментальна риса, що перетворює масив текстів на лінгвістичний інструмент. Кожне слово чи речення отримує спеціальні мітки, які роблять структуру мови «видимою» для алгоритмів.
- Цільове призначення (прагматичність): формування корпусу завжди підпорядковане конкретній науковій або практичній меті, що визначає принципи відбору текстів та глибину їхнього аналізу.
У корпусній лінгвістиці, розмічування частин мови (англ. part-of-speech tagging, POS tagging, POST), також називається граматичним позначенням або розбором на частини мови, це процес позначення слова в тексті (корпусі) належним до певної частини мови, заснований як на його визначенні, так і на його контексті — тобто, на його зв'язку з суміжними і спорідненими словами у фразі, реченні, або абзаці. Спрощена форма корпусної лінгвістики зазвичай викладається дітям шкільного віку, у вигляді визначення слів як іменник, дієслово, прикметник, прислівник тощо.
Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:
- паралельні — сукупність текстів та їх перекладів на одну або кілька мов
- зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами
Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.
Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів[2]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:
- можливість одночасного розмічання одного документа декількома людьми
- не вимагають встановлення додаткових програмних засобів, крім браузера
- гнучке розмежування прав доступу
- відображення поточного прогресу процесу розмітки
- можливість модифікації розмічуваного корпусу
Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:
Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси[3].— Володимѝр Бенко ARANEA
Корпус є фундаментом і головним джерелом даних для всієї корпусної лінгвістики. Саме на основі корпусних масивів базується більшість розробок у сфері IT-лінгвістики: від автоматичного визначення ключових слів у текстах до складних систем розпізнавання голосу та автоматичного перекладу.
У технічному плані дані з корпусів використовують для побудови математичних моделей (зокрема, прихованих марковських моделей), які навчають комп'ютер самостійно розрізняти частини мови та аналізувати структуру речень. Окрім високих технологій, корпуси та побудовані на їх основі частотні словники мають велике практичне значення у педагогіці, допомагаючи ефективніше викладати іноземні мови, спираючись на реальний вжиток слів.
- ↑ Корпусна лінгвістика (укр.), 26 травня 2025, процитовано 23 квітня 2026
- ↑ Ванюшкин, Гращенко, 2017.
- ↑ ARANEA :. textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.
- Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. К.: Довіра, 2005. 471 с.
- Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с. ISBN 978-617-10-0636-2
- Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
- Бук С. Лінгводидактичний потенціал корпусу текстів Івана Франка у викладанні української мови як іноземної // Теорія і практика викладання української мови як іноземної. Львів: В-во ЛНУ імені Івана Франка, 2010. Вип. 5. С. 70–74.
- Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вип. 20 (17 червня). — ISSN 2227-0973. Архівовано з джерела 5 травня 2021. Процитовано 5 травня 2021.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : URSS, 2016. — 320 с.
- Корпус української мови лінгвістичного порталу MOVA.info [Архівовано 1 травня 2021 у Wayback Machine.]
- Корпус української мови на основі електронної бібліотеки Чтиво [Архівовано 6 липня 2019 у Wayback Machine.]
- Генеральний реґіонально анотований корпус української мови [Архівовано 5 травня 2021 у Wayback Machine.]
- Корпус Лейпцизького університету [Архівовано 17 червня 2021 у Wayback Machine.]
- Лабораторія української [Архівовано 6 травня 2021 у Wayback Machine.]
- Корпус текстів великої прози І. Франка
- Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка
- Прихована марковська модель#:~:text=Програмне забезпечення-,Прихована марковська модель,-[ред.
- Частотний словник сучасної української художньої прози#:~:text=Література-,Частотний словник сучасної української художньої прози