Перейти до вмісту

Корпус текстів

Очікує на перевірку
Матеріал з Вікіпедії — вільної енциклопедії.

У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.

лінгві́стика (від. лат. lingua — мова) — наука, що вивчає мову в усій складності її прояву; наука про мову взагалі й окремі мови світу як індивідуальних її представників. Це гуманітарна наука з розділу культурології (нарівні з мистецтвознавством і літературознавством) і філології (нарівні з літературознавством), а також з галузі семіотики. Як самостійна дисципліна сформувалася в середині XIX століття.

Перевірка статистичних гіпотез — клас базових задач в математичній статистиці, що полягають у перевірці статистичних гіпотез на основі даних спостереження за процесом, який моделюється за допомогою множини випадкових величин. Перевірка статистичних гіпотез є методом статистичного висновування. Альтернативний метод перевірки статистичних гіпотез полягає у визначенні множини статистичних моделей, по одній для кожної гіпотези кандидата, після чого використовуються техніки відбору моделі, аби вибрати ту, яка підходить найбільше. Найбільш загальні техніки відбору моделей основані на інформаційному критерії Акаіке або коефіцієнті Баєса.

Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.

Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.

[1]Основні властивості корпусу

[ред. | ред. код]

Визначальні риси лінгвістичного корпусу

[ред. | ред. код]

Попри різноманітність наукових підходів, фахівці виділяють чотири ключові ознаки, які відрізняють корпус від звичайної бібліотеки чи архіву:

  • Цифрова природа (електронний формат) : у сучасній науці корпус існує виключно як масив даних, що придатний для автоматизованого пошуку та миттєвої комп'ютерної обробки.
  • Репрезентативність: склад корпусу має бути збалансованим і пропорційним, щоб максимально точно відтворювати стан мови (або її певного сегмента), яку він моделює.
  • Наявність анотації (розмітка): це фундаментальна риса, що перетворює масив текстів на лінгвістичний інструмент. Кожне слово чи речення отримує спеціальні мітки, які роблять структуру мови «видимою» для алгоритмів.
  • Цільове призначення (прагматичність): формування корпусу завжди підпорядковане конкретній науковій або практичній меті, що визначає принципи відбору текстів та глибину їхнього аналізу.

У корпусній лінгвістиці, розмічування частин мови (англ. part-of-speech tagging, POS tagging, POST), також називається граматичним позначенням або розбором на частини мови, це процес позначення слова в тексті (корпусі) належним до певної частини мови, заснований як на його визначенні, так і на його контексті — тобто, на його зв'язку з суміжними і спорідненими словами у фразі, реченні, або абзаці. Спрощена форма корпусної лінгвістики зазвичай викладається дітям шкільного віку, у вигляді визначення слів як іменник, дієслово, прикметник, прислівник тощо.

Класифікація корпусів

[ред. | ред. код]

Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:

  1. паралельні — сукупність текстів та їх перекладів на одну або кілька мов
  2. зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами

Розмітка корпусів

[ред. | ред. код]

Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.

Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів[2]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веборієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:

  • можливість одночасного розмічання одного документа декількома людьми
  • не вимагають встановлення додаткових програмних засобів, крім браузера
  • гнучке розмежування прав доступу
  • відображення поточного прогресу процесу розмітки
  • можливість модифікації розмічуваного корпусу

Інтернет як корпус

[ред. | ред. код]

Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:

Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення вебкорпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси[3].

Володимѝр Бенко ARANEA

Застосування

[ред. | ред. код]

Корпус є фундаментом і головним джерелом даних для всієї корпусної лінгвістики. Саме на основі корпусних масивів базується більшість розробок у сфері IT-лінгвістики: від автоматичного визначення ключових слів у текстах до складних систем розпізнавання голосу та автоматичного перекладу.

У технічному плані дані з корпусів використовують для побудови математичних моделей (зокрема, прихованих марковських моделей), які навчають комп'ютер самостійно розрізняти частини мови та аналізувати структуру речень. Окрім високих технологій, корпуси та побудовані на їх основі частотні словники мають велике практичне значення у педагогіці, допомагаючи ефективніше викладати іноземні мови, спираючись на реальний вжиток слів.

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Корпусна лінгвістика (укр.), 26 травня 2025, процитовано 23 квітня 2026
  2. Ванюшкин, Гращенко, 2017.
  3. ARANEA :. textualheritage.org. Архів оригіналу за 9 серпня 2020. Процитовано 26 грудня 2019.

Література

[ред. | ред. код]

Посилання

[ред. | ред. код]

Корпуси текстів української мови

[ред. | ред. код]