Користувач:Світлана Потіха/Чернетка

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку


Національний корпус польської мови[ред. | ред. код]

Національний корпус польської мови (часто скорочений до NKJP ) - корпус польської мови , започаткований у 2012 році. Розроблено Інститутом комп’ютерних наук Польської академії наук , Інститутом польської мови Польської академії наук , польськими науковими видавництвами PWN та кафедрою обчислювальної та корпусної лінгвістики Лодзинського університету. Проект виконано на замовлення Міністерства науки і вищої освіти .


Національний корпус польської мови
Narodowy Korpus Języka Polskiego
Посилання nkjp.pl
Тип наукова література
Мови польська і англійська
Стан активний

Про проєкт NKJP[ред. | ред. код]

Лінгвістичний корпус – це сукупність текстів, у яких можна знайти типове використання окремого слова чи фрази, а також їх значення та граматичну функцію. Без доступу до мовного корпусу неможливо займатися лінгвістичними дослідженнями, писати словники, граматики та підручники з мови, створювати чутливі до польської мови пошукові системи, машини машинного перекладу та програмне забезпечення передових мовних технологій.

Мовні корпуси є важливим інструментом для лінгвістів, але вони також корисні для інженерів-програмістів, дослідників літератури та культури, істориків, бібліотекарів та інших спеціалістів з мистецтва та інформатики.

Автори[ред. | ред. код]

Національний корпус польської мови є спільною ініціативою чотирьох установ: Інституту комп'ютерних наук, Польської академії наук (координатор), Інституту польської мови, Польської академії наук, польських наукових видавництв PWN та Департаменту обчислень і корпусу. Він виконаний як науково-дослідний проект Міністерства науки та вищої освіти .

Ці чотири установи розпочали співпрацю для створення довідкового корпусу польської мови, що містить понад півтори сотні мільйонів слів. Корпус доступний для пошуку за допомогою передових інструментів, які аналізують польську флексію та структуру польського речення.

Зміст[ред. | ред. код]

Список джерел для корпусів містить класичну літературу, щоденні газети, спеціалізовані періодичні видання та журнали, стенограми розмов, різноманітні короткочасні та інтернет-тексти. Щоб корпус був надійним, він повинен не тільки містити велику кількість слів, а й різноманітність текстів за темою та жанром. Розмови мають представляти мовців як чоловіків, так і жінок у різних вікових групах, які приїжджають з різних регіонів Польщі.[1][2]

ось це втулити кудись як доповнення


Вже існують національні корпуси, складені англійцями , німцями , чехами та росіянами . Полякам також потрібен великий, добре збалансований мовний корпус – мовне джерело, доступне в Інтернеті.(це в кінець статті напевно)))

Про пошукову систему[ред. | ред. код]

Корпусний пошуковий механізм PELCRA для даних NKJP створено в рамках проекту Національний корпус польської мови . Це дозволяє шукати збалансовану версію корпусу зібраних як частина проект.Пошукова система PELCRA проста у використанні і швидко повертає навіть дуже великі набори результатів, які також можна завантажити у вигляді електронних таблиць. Спеціальний синтаксис запиту також дозволяє використовувати морфологічні та орфографічні розширення, шукати в одному запиті лексічні варіанти та гнучкі фразеологічні сполуки.

Пошукова система NKJP PELCRA також пропонує функцію візуалізації реєстру та генерування часових рядів для слів, фраз та ідіом.

Застосування корпусу[ред. | ред. код]

Національний корпус польської мови є матеріальною базою для нового Великого словника польської мови, створеного в рамках науково-дослідного проекту в Інституті польської мови Польської академії наук. Частина текстів, зібраних у рамках NKJP, на постійній основі використовуються в проекті Польсько-Російського Корпусу, що входить до складу факультету польських студій Варшавського університету у співпраці з Педагогічним університетом в Уфі та Національним корпусом російської мови. NKJP також використовується в багатьох інших проектах, що здійснюються в Інституті комп’ютерних наук Польської академії наук і в підрозділах, що співпрацюють з IPI PAN, включаючи Вроцлавський технологічний університет (наприклад, у створенні наступних версій Słowosetcia[3]) та Університет науки і техніки AGH (включаючи лінгвістичний семінар для аналізу та розпізнавання мовлення та систему діалогу між людиною і комп’ютером).

2012 рік[ред. | ред. код]

На основі даних NKJP підготовлено стаття опубліковано 28 травня 2012 року на новинному порталі TokFM. Вроцлавський університет науки і техніки використовував доступ до програмування NKJP PELCRA для створення та тестування систем розшифровки слів. Для добору слів 2011 року використано програму «Слова дня». Радіопередача в «Trójki Club».[4]

2011 рік[ред. | ред. код]

Розмовні дані, зібрані в рамках NKJP, були доступні на платформі META-SHARE[5] за відкритою ліцензією. Університет Редінга використовував пошукову систему NKJP PELCRA для антропологічних досліджень. Університет Утрехта отримав ліцензію на використання підкорпусу розмовної мови NKJP для проведення досліджень з моделювання мовлення.

2009 рік[ред. | ред. код]

Барселонський університет використав близько 500 тис. корпусів. слова для мого власного дослідження.

Публікації[ред. | ред. код]

Рік Автор Назва роботи Примітки
2008 Адам Пшепьорковський Linguistic resources and tools at ICS PAS: Towards interoperability ст. 491-499
2009 Рафал Млодзкі та Адам Пшепьорковський

Адам Пшепьорковський

The WSD Development EnvironmentA comparison of two morphosyntactic tagsets of Polish. ст. 185-189

ст. 138-144

2010 Катажина Гловинська, Адам Пшепьорковський The Design of Syntactic Annotation Levels in the National Corpus of PolishTowards the Annotation of Named Entities in the National Corpus of Polish
2011 Пьотр Пензік

Анна Анджейчук

Providing corpus feedback for translators with the PELCRA search engine for NKJPDwoje urodzin to brzmi dziwnie. Norma językowa dotycząca połączeń rzeczowników plurale tantum z liczebnikami a jej realizacja w tekstach. ст. 135-144

ст. 273-283

2012 Лукаш Дегурський Towards the lemmatisation of Polish nominal syntactic groups using a shallow grammar.

Джерела[ред. | ред. код]

  1. Książki w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022. 
  2. Prasa w korpusie NKJP. www.nkjp.pl. Процитовано 16 квітня 2022. 
  3. Słowosieć. plwordnet.pwr.wroc.pl. Процитовано 16 квітня 2022. 
  4. Program Trzeci Polskiego Radia. trojka.polskieradio.pl (пол.). Процитовано 16 квітня 2022. 
  5. META-SHARE — META Multilingual Europe Technology Alliance. www.meta-net.eu. Процитовано 16 квітня 2022.