Sketch Engine

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Sketch Engine
Типпрограмне забезпечення
Мова програмуванняC++
Вебсайтsketchengine.co.uk

Sketch Engine (англ. Sketch — ескіз; англ. Engine — двигун) — це програмне забезпечення для керування корпусами текстів та для аналізу текстів, розроблене компанією Lexical Computing Limited [Архівовано 9 квітня 2022 у Wayback Machine.] з 2003 року. Його мета — надати людям, які вивчають мовну поведінку (лексикографам, дослідникам з корпусної лінгвістики, перекладачам або тим, хто вивчає мову), можливість здійснювати пошук у великих текстових колекціях, роблячи складні та лінгвістично спрямовані пошукові запити. Sketch Engine отримав свою назву на честь однієї з ключових функцій, "нарис слова" (Word Sketch[en]): односторінковий, автоматичний підсумок граматичної та розмовної поведінки слова у даному корпусі текстів. Наразі він підтримує та надає корпуси понад 90 мовами[1].

Історія розвитку

[ред. | ред. код]

Sketch Engine є продуктом компанії Lexical Computing Limited, заснованої в 2003-му році лексикографом і науковцем Адамом Кілгарріффом[2]. Він розпочав співпрацю з Павлом Рихли, вченим-комп'ютерником, який працює в Центрі обробки природних мов при Університеті Масарика[3] і розробником Manatee і Bonito (двох основних частин програмного пакета), і представив концепцію  нарисів слова (англ. word sketches).

З того часу Sketch Engine є комерційним програмним забезпеченням, однак усі основні функції Manatee і Bonito, які були розроблені до 2003 року (і відтоді розширені), є вільно доступними за ліцензією GPL у пакеті NoSketch Engine. [Архівовано 7 травня 2016 у Wayback Machine.][голе посилання]

Особливості

[ред. | ред. код]
  • Нарис слова (word sketches[en]) – автоматичний підсумок граматичної та розмовної поведінки слова на одній сторінці
  • Різниця в word sketch — порівнює та протиставляє два слова, аналізуючи їхнє зіставлення
  • Розповсюджуваний  Thesaurus — автоматизований тезаурус, який знаходить слова з подібним значенням або з'являються в тому ж/подібному контексті
  • Пошук узгодженості — знаходить приклади словоформи, леми, фрази, тегу або складної структури
  • Пошук спільної локації — аналіз спільної зустрічальності слів із відображенням найчастіших слів (до пошукового слова), які можна розглядати як кандидатів на збіг
  • Списки слів — створює списки частот, які можна фільтрувати за складними критеріями
  • n-grams — генерує частотні списки багатослівних виразів
  • Термінологія / Вилучення ключових слів (як одномовних, так і двомовних) — автоматичне вилучення ключових слів і термінів із кількох слів із текстів (на основі частоти та лінгвістичних критеріїв)
  • Діахронічний аналіз (Trends) — виявлення слів, частота вживання яких змінюється з часом (показати популярні слова)
  • Побудова корпусу та керування ним — створюйте корпуси з Інтернету або завантажуйте тексти, включаючи тегування частини мови та лематизація, які можна використовувати як програмне забезпечення для аналізу даних
  • Паралельний корпус (двомовний) — пошук прикладів перекладу (корпус EUR-Lex, корпус Europarl, корпус OPUS тощо) або створення паралельного корпусу з власних вирівняних текстів.

Sketch Engine складається з трьох основних компонентів: базової системи керування базою даних під назвою Manatee, веб-інтерфейсу пошуку під назвою Bonito та веб-інтерфейсу для створення корпусу та керування ним під назвою Corpus Architect.

Примітки

[ред. | ред. код]
  1. Word databases, language tools and solutions. Lexical Computing (брит.). Архів оригіналу за 9 квітня 2022. Процитовано 2 травня 2022.
  2. Adam Kilgarriff. Wikipedia (англ.). 7 квітня 2022. Процитовано 2 травня 2022.
  3. Masaryk University. Wikipedia (англ.). 13 квітня 2022. Процитовано 2 травня 2022.

Посилання

[ред. | ред. код]