Генеральний регіонально анотований корпус української мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Генеральний регіонально анотований корпус української мови (ГРАК; англ. General Regionally Annotated Corpus of Ukrainian, GRAC) — це корпус української мови обсягом понад 290 млн токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик.

Корпус може бути використаний для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо.

Корпус не є взірцем нормативної української мови, в ньому можуть трапитись слова і сполучення, які не відповідають сучасним нормам літературної мови.

Корпус охоплює період з 1818 по 2018 р. і містить понад 27 тисяч текстів близько 3000 авторів.

Напрями та жанри[ред. | ред. код]

60 % корпусу становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії.

З нехудожніх текстів:

  • публіцистичні тексти, зокрема колекції газет 1888—1893 рр., 1905 р., 1913—1918 рр., 1919—1943 рр., сучасні газети різних регіонів, а також тексти з інформаційних сайтів в Інтернеті;
  • мемуари, листи та щоденники, зокрема чималий корпус текстів Facebook, в якому представлені блоги людей з усіх областей України та діаспори;
  • наукові та навчальні тексти: монографії, дисертації, наукові статті, підручники; окремо виділено значні за обсягом підкорпуси наукової літератури з історії, етнографії, філософії, права;
  • релігійні тексти, зокрема два українські переклади Біблії;
  • промови та інтерв'ю.

Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема «Словарь української мови» Б. Грінченка і «Російсько-український словник сталих виразів» І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів.

Перекладні тексти[ред. | ред. код]

Третина текстів в корпусі є перекладами. Корпус містить переклади з 38 мов, найбільше — з англійської та російської.

Датування[ред. | ред. код]

Тексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст.

Регіональна розмітка[ред. | ред. код]

В основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму.

Один текст може належати до кількох регіональних підкорпусів (якщо автор або перекладач народився, вчився, жив тривалий час в різних регіонах).

Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). Це здебільшого тексти емігрантів 1940-х років і, менша частка, — 1917-1920-х рр.

Морфологічна розмітка[ред. | ред. код]

ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u.

Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки).

Дослідження на базі Корпусу[ред. | ред. код]

На базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми[1] та частотності літер і їх сполучень для розроблення шрифтів[2].

Примітки[ред. | ред. код]

  1. М. О. Шведова. Динаміка вживання варіативних форм іменників-назв неістот у знахідному відмінку однини в літературних текстах регіонів України ХІХ-ХХІ ст. // Науковий вісник Херсонського державного університету. Серія «Лінгвістика»: Збірник наукових праць. Випуск 31 / Херс. держ. ун-т. — Херсон: ХДУ, 2018. — С. 88-94.
  2. Кирилиця та латинка в українській мові // Rentafont.com.ua

Посилання[ред. | ред. код]

  • uacorpus.org — Корпус української мови