Корпус текстів
У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.
Серед безлічі визначень корпусу можна виділити його основні характеристики:
- електронний — у сучасному розумінні корпус має бути в електронному вигляді
- репрезентативний — повинен добре «представляти» об'єкт, який моделює
- розмічений — головна відмінність корпусу від колекції текстів
- прагматично орієнтований — створюється під певну задачу
Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:
- паралельні — сукупність текстів та їх перекладів на одну або кілька мов
- зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами
Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.
Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів[1]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:
- можливість одночасного розмічання одного документа декількома людьми
- не вимагають встановлення додаткових програмних засобів, крім браузера
- гнучке розмежування прав доступу
- відображення поточного прогресу процесу розмітки
- можливість модифікації розмічуваного корпусу
Зовнішні відеофайли | |
---|---|
Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016 |
Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:
Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси[2].— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.
- ↑ Ванюшкин, Гращенко, 2017.
- ↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие". textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.
- Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. К.: Довіра, 2005. 471 с.
- Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с. ISBN 978-617-10-0636-2
- Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
- Бук С. Лінгводидактичний потенціал корпусу текстів Івана Франка у викладанні української мови як іноземної // Теорія і практика викладання української мови як іноземної. Львів: В-во ЛНУ імені Івана Франка, 2010. Вип. 5. С. 70–74.
- Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вип. 20 (3 жовтня). — ISSN 2227-0973. Архівовано з джерела 5 травня 2021. Процитовано 5 травня 2021.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : URSS, 2016. — 320 с.
- Корпус української мови лінгвістичного порталу MOVA.info [Архівовано 1 травня 2021 у Wayback Machine.]
- Корпус української мови на основі електронної бібліотеки Чтиво [Архівовано 6 липня 2019 у Wayback Machine.]
- Генеральний реґіонально анотований корпус української мови [Архівовано 5 травня 2021 у Wayback Machine.]
- Корпус Лейпцизького університету [Архівовано 17 червня 2021 у Wayback Machine.]
- Лабораторія української [Архівовано 6 травня 2021 у Wayback Machine.]
- Корпус текстів великої прози І. Франка
- Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка