Чеський національний корпус

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Чеський національний корпус (ЧНК) (чес. Český národní korpus) — великий електронний корпус писемної та розмовної чеської мови, розроблений Інститутом Чеського національного корпусу (ICNC) на факультеті мистецтв Карлового університету в Празі[1]. Корпус використовується для викладання та дослідження з корпусної лінгвістики. Його мета – систематично відображати чеську та інші мови в порівнянні з нею.

Історія створення[ред. | ред. код]

Ідея щодо створення ЧНК була вперше висунута у 1991 році та підтримана представниками Факультету філософії Карлового університету, Факультету математики та фізики Карлового університету, Університету Масарика, Університету Палацького, Інституту чеської мови Академії наук Чехії.

Заснований був в 1994 році.

Передумовами для створення корпусу слугували такі фактори, як відхилення сучасної чеської мови від загальноприйнятих норм (створення корпусу допомогло б позбавити чеську лексикографію від подібних відхилень) і стабілізація політичної ситуації (ширша співпраця з міжнародною науковою спільнотою допомогла привнесенню комп′ютерної лексикографії та корпусної лінгвістики, як окремих гілок, у чеську лінгвістику).

Укладачі[ред. | ред. код]

Станом на 10 вересня 2017 року над Чеським національним корпусом працюють:

  • Директор Міхал Кршен
  • Заступник директора Варцлав Цврчек
  • Секретар Луціє Новакова
  • Професор Франтішек Чермак
  • Професор і голова секції діахронічного корпусу Карел Кучера
  • Голова лінгвістичної секції Варцлав Цврчек
  • Голова обчислювальної секції Павел Вондржичка
  • Голова секції розмовного корпусу Марія Копршивова
  • Голова секції лінгвістичного аналізу й анотацій Томаш Елінек
  • Голова секції паралельного корпусу Александр Розен
  • Та інші[2]

Склад та об'єм корпусу[ред. | ред. код]

Корпус письмових текстів ~2705 млн слововживань
Корпус усних текстів ~4 млн слововживань
Діахронічний корпус ~1,95 млн слововживань
Корпус іноземних мов ~6248 млн слововживань
Паралельний корпус ~92 млн слововживань

Загальний об’єм корпусу складає понад 9 млрд слововживань, з яких лематизовано і розмічено тегами ~8894,5 млн.

Сфери уваги[ред. | ред. код]

Чеський національний корпус систематично зосереджується на таких сферах:

  • Синхронні письмові корпуси: корпуси серії SYN відображають чеську мову 20-го та 21-го століття (особливо останніх двадцяти років) і становлять ядро ​​проєкту. Тексти збагачуються метаданими, лематизацією та морфологічними тегами.
  • Сучасна спонтанна розмовна чеська: корпуси серії ORAL містять сучасну, спонтанну розмовну мову, яка використовується в неформальних ситуаціях по всій Чеській Республіці (на відміну від підготовлених, переданих або написаних текстів, які зазвичай зустрічаються в розмовних корпусах).
  • Багатомовний паралельний корпус: InterCorp – це великий корпус чеських текстів, узгоджених на рівні речення з перекладами на або з більш ніж 30 мов. Основу корпусу складають вирівняні вручну та вичитані художні тексти.
  • Діахронічний корпус чеської мови: Корпус історичної чеської мови DIAKORP включає тексти з 14 століття. Сьогодні DIAKORP зосереджується на 19 столітті. Довгострокова мета DIAKORP полягає в тому, щоб створити корпус, що охоплює період з 1850 року по теперішній час, і поєднати дані з серією SYN.
  • Спеціалізовані лінгвістичні дані: ICNC також бере участь у зборі мовних даних для конкретних дослідницьких цілей, включаючи DIALEKT (діалектне мовлення), CzeSL (тексти, написані людьми, які не є рідними, хто вивчає чеську), DEAF (чеські тексти, написані глухими), або Ієронім (перекладна і неперекладна чеська).

Джерела текстів[ред. | ред. код]

Основними джерелами текстів ЧНК є:

  • Тексти, отримані в електронному вигляді від видавництв й індивідуальних власників
  • Текстів, взятих із газет (складають абсолютну більшість текстів корпусу – близько 60%)
  • Тексти словників (наприклад, корпус FSC2000 посилається на Частотний словник чеської мови)

Окремий корпус ЧНК присвячений антиутопії Джорджа Орвелла «1984», порівняно невеликий розмір якої (80 000 слів і 20 000 пунктуаційних знаків) дозволив вручну розмітити текст майже бездоганно.

Доступ[ред. | ред. код]

На сайті існує два види доступу: публічний і повний.

Неавторизований користувач може шукати тільки в корпусі SYN2010, об′єм якого складає всього 100 млн слів, що становить одну дев′яносту всієї бази Чеського національного корпусу. SYN2010 складається[3] на 40% із художньої літератури, на 27% із технічної літератури і на 33% із журналістських робіт. Більшість текстів корпусу були створені з 2005 по 2009 рік.

Слова видаються в форматі concordance lines, коли кожна стрічка являє собою частину тексту, в якому є заданий вислів. Для публічного доступу можливі використання базових регулярних висловлювань, також можливий пошук за ключовими словам.

Зареєстрований користувач має повний доступ до бази даних Інституту ЧНК, а також до спеціального менеджера корпусу Bonito.

Співпраця[ред. | ред. код]

З корпусом співпрацюють такі наукові інституції:[4]

Також корпус співпрацює з факультетом слов’янських мов Браунського університету (США), факультетом філософії і літератури Гранадського університету (Іспанія), Інститутом німецької мови в Мангаймі (Німеччина), Амстердамським університетом (Нідерланди) та іншими великими науковими центрами.

Примітки[ред. | ред. код]

  1. Charles University - Czech Universities. www.czechuniversities.com. Процитовано 3 травня 2022.
  2. People | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.
  3. Public Access. web.archive.org. 29 жовтня 2013. Архів оригіналу за 29 жовтня 2013. Процитовано 4 травня 2022.
  4. Cooperation | Institute of the Czech National Corpus. ucnk.ff.cuni.cz. Процитовано 4 травня 2022.