Корпус текстів

Зовнішні відеофайли
	Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.

Основні властивості корпусу[ред. | ред. код]

Серед безлічі визначень корпусу можна виділити його основні характеристики:

електронний — у сучасному розумінні корпус має бути в електронному вигляді
репрезентативний — повинен добре «представляти» об'єкт, який моделює
розмічений — головна відмінність корпусу від колекції текстів
прагматично орієнтований — створюється під певну задачу

Класифікація корпусів[ред. | ред. код]

Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:

паралельні — сукупність текстів та їх перекладів на одну або кілька мов
зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами

Розмітка корпусів[ред. | ред. код]

Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.

Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів^[1]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:

можливість одночасного розмічання одного документа декількома людьми
не вимагають встановлення додаткових програмних засобів, крім браузера
гнучке розмежування прав доступу
відображення поточного прогресу процесу розмітки
можливість модифікації розмічуваного корпусу

Інтернет як корпус[ред. | ред. код]

Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:

Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси^[2].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Застосування[ред. | ред. код]

Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ Ванюшкин, Гращенко, 2017.
↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие". textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.

Література[ред. | ред. код]

Корпусна лінгвістика / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна та ін. К.: Довіра, 2005. 471 с.
Бук С. Велика проза Івана Франка: електронний корпус, частотні словники та інші міждисциплінарні контексти : монографія / Львів : ЛНУ імені Івана Франка, 2021. 424 с. ISBN 978-617-10-0636-2
Бук С. Корпус текстів у лінгводидактиці (на матеріалі омонімії у корпусі великої прози Івана Франка) // Вісник Львівського університету. Серія філологічна. 2012. Вип. 57. С. 106–116.
Бук С. Лінгводидактичний потенціал корпусу текстів Івана Франка у викладанні української мови як іноземної // Теорія і практика викладання української мови як іноземної. Львів: В-во ЛНУ імені Івана Франка, 2010. Вип. 5. С. 70–74.
Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вип. 20 (22 квітня). — ISSN 2227-0973. Архівовано з джерела 5 травня 2021. Процитовано 5 травня 2021.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : URSS, 2016. — 320 с.

Посилання[ред. | ред. код]

Корпуси текстів української мови[ред. | ред. код]

Корпус української мови лінгвістичного порталу MOVA.info [Архівовано 1 травня 2021 у Wayback Machine.]
Корпус української мови на основі електронної бібліотеки Чтиво [Архівовано 6 липня 2019 у Wayback Machine.]
Генеральний реґіонально анотований корпус української мови [Архівовано 5 травня 2021 у Wayback Machine.]
Корпус Лейпцизького університету [Архівовано 17 червня 2021 у Wayback Machine.]
Лабораторія української [Архівовано 6 травня 2021 у Wayback Machine.]
Корпус текстів великої прози І. Франка
Паралельний польсько-український та українсько-польський корпус автоперекладів Івана Франка

[FOOTNOTEВанюшкин,_Гращенко2017-1] Ванюшкин, Гращенко, 2017.

[2] ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие". textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.

[1]

[2]

Корпус текстів

Зміст

Основні властивості корпусу[ред. | ред. код]

Класифікація корпусів[ред. | ред. код]

Розмітка корпусів[ред. | ред. код]

Інтернет як корпус[ред. | ред. код]

Застосування[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Література[ред. | ред. код]

Посилання[ред. | ред. код]

Корпуси текстів української мови[ред. | ред. код]

Навігаційне меню

Корпус текстів

Основні властивості корпусу[ред. | ред. код]

Класифікація корпусів[ред. | ред. код]

Розмітка корпусів[ред. | ред. код]

Інтернет як корпус[ред. | ред. код]

Застосування[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Література[ред. | ред. код]

Посилання[ред. | ред. код]

Корпуси текстів української мови[ред. | ред. код]

Навігаційне меню

Пошук