Сімейство корпусів ТенТен

Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники.

До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (10¹⁰) слововживань, це число й дало їм назву (10¹⁰ — «ten-ten»).^[1]

Щоб отримати доступ до корпусів ТенТен, необхідно авторизуватися та купити підписку на сайті Sketch Engine. Можна скористатися 30-денним пробним періодом.

Історія створення[ред. | ред. код]

Родина корпусів ТенТен — це спільний проєкт Центру обробки природних мов факультету інформатики Університету Масарика (Брно, Чехія) та компанії Lexical Computing^[2]. Безпосередньо над розробкою корпусів ТенТен працювали^[1]: Мілош Якубічек (чес. Miloš Jakubíček), Войтех Коварж (чес. Vojtěch Kovář), Павел Рихли (чес. Pavel Rychlý), Віт Сухомель (чес. Vít Suchomel) і Адам Кілґарріфф (англ. Adam Kilgarriff).

Концепція порівняльних веб-корпусів зародилася ще в 2006 р. Ця ідея належить Марку Бароні^[3], професорові кафедри лінгвістики Каталонського інституту перспективних досліджень (англ. Catalan Institution for Research and Advanced Studies), Адамові Кілґарріффу, корпусному лінгвісту й одному з розробників Sketch Engine, і Сергію Шарову^[4] — російському комп'ютерному лінгвісту. Згодом у 2013 р. на Сьомій міжнародній конференції з корпусної лінгвістики у Ланкастері (англ. 7th International Corpus Linguistics Conference CL) розробники із Університету Масарика та Sketch Engine презентували принципово новий проєкт — Сімейство веб-корпусів ТенТен, а також власне допоміжне програмне забезпечення для корпусних лінгвістів — SpiderLing, jusText і ONION.

Процес укладання[ред. | ред. код]

Процедура створення корпусів ТенТен базується на попередніх дослідженнях розробників щодо підготовки та опрацювання інформації для веб-корпусів.^[5]^[6]^[7] До цього алгоритму входять наступні кроки:

Насамперед веб-сканер SpiderLing завантажує величезну кількість даних зі всесвітньої мережі.^[8]
Потім за допомогою інструмента jusText^[9] зібрана інформація очищується від будь-якого нетекстового матеріалу у вихідному коді HTML. Важливо, щоб залишалися лише повні суцільні речення, а навігаційні посилання та верхні й нижні колонтитули було видалено.
Проводиться лексичний аналіз (токенізація) матеріалів. Лексичний аналіз можна розділити на два етапи: сканування, яке сегментує вхідний рядок у синтаксичні одиниці, які називаються лексемами, та класифікує їх у класи токенів; та обчислення, яке перетворює лексеми в оброблені значення.
Наступний етап — дедублікація даних у корпусі. Вона полягає у виявленні та видаленні однакових за змістом даних. З цією метою застосовується ще один інструмент для роботи з масивами текстів — ONION (ONe Instance ONly).^[9] Потреба в дедублікації виникає через такі поширені в Інтернеті явища, як копіювання, цитування, покликання на джерело, тощо.
Останній крок — морфологічна розмітка корпусу: для кожної словоформи визначаються теги (граматичні ознаки).

Інструменти для роботи з корпусами ТенТен[ред. | ред. код]

Повний набір інструментів Search Engine складається з таких категорій:

Word Sketch та Word Sketch Difference — дослідження граматичних зв'язків у словосполученнях і колокаціях;
Thesaurus — генерування тезаурусів — словників синонімів або слів з певних семантичних полів;
Keywords та Bilingual Terms — створення вибірки ключових слів і термінів з корпусу однієї мови або порівняльних корпусів двох мов;
Word Lists — автоматичне укладання частотних словників;
N-grams — укладання частотних словників н-грам;
Concordance та Parallel Concordance — пошук у конкордансах, зокрема й двомовних. Ця опція дає змогу детально вивчити текст, досліджувати функціонування мови в контексті;
Text Type Analysis — аналіз даних зі всього корпусу.

Структура даних у корпусах[ред. | ред. код]

Усі корпуси ТенТен мають однакову специфічну структуру метаданих. Метадані містяться в структурних атрибутах, які стосуються окремих документів і параграфів у корпусі. Деякі корпуси ТенТен мають ще й додаткові специфічні атрибути.

Атрибути документа[ред. | ред. код]

Домен верхнього рівня — домен на найвищому рівні ієрархічної системи доменних імен (наприклад, «com»);
веб-сайт — ідентифікаційний рядок, що визначає сферу адміністративної автономії в Інтернеті (наприклад, «wikipedia.org»);
веб-домен — сукупність пов'язаних веб-сторінок (наприклад, «uk.wikipedia.org»);
дата сканування — дата, коли документ було завантажено з Інтернету;
URL — уніфікований локатор ресурсу з посиланням на джерело документа;
підрахунок слів — кількість слів у документі;
довжина — класифікація документа за діапазоном, яка визначається його довжиною та може вимірюватися тисячами слів.

Атрибути абзацу[ред. | ред. код]

Заголовок — числовий атрибут, що відрізняє колонтитули та подібні заголовки від звичайного основного тексту (якщо абзац є заголовком — його позначають «1», якщо колонтитулом — «0»).

Доступні корпуси ТенТен[ред. | ред. код]

Станом на квітень 2022 року за допомогою Sketch Engine можна отримати доступ до таких корпусів:^[10]

arTenTen (веб-корпус арабської мови)
beTenTen (веб-корпус білоруської мови)
bgTenTen (веб-корпус болгарської мови)
caTenTen (веб-корпус каталонської мови)
cebTenTen (веб-корпус себуанської мови)
csTenTen (веб-корпус чеської мови)
daTenTen (веб-корпус данської мови)
deTenTen (веб-корпус німецької мови)
elTenTen (веб-корпус грецької мови)
enTenTen (веб-корпус англійської мови)
esTenTen (веб-корпус іспанської мови з підкорпусами європейського й американського мовних варіантів іспанської)
etTenTen (веб-корпус естонської мови)
fiTenTen (веб-корпус фінської мови)
frTenTen (веб-корпус французької мови)
heTenTen (веб-корпус івриту)
hiTenTen (веб-корпус гінді)
huTenTen (веб-корпус угорської мови)
itTenTen (веб-корпус італійської мови)
isTenTen (веб-корпус ісландської мови)
jaTenTen (веб-корпус японської мови)
kmTenTen (веб-корпус кхмерської мови)
koTenTen (веб-корпус корейської мови)
loTenTen (веб-корпус лаоської мови)
ltTenTen (веб-корпус литовської мови)
lvTenTen (веб-корпус латиської мови)
miTenTen (веб-корпус мови маорі)
nlTenTen (веб-корпус нідерландської мови)
noTenTen (веб-корпус норвезької мови)
plTenTen (веб-корпус польської мови)
ptTenTen (веб-корпус португальської мови)
roTenTen (веб-корпус румунської мови)
ruTenTen (веб-корпус російської мови)
skTenTen (веб-корпус словацької мови)
slTenTen (веб-корпус словенської мови)
svTenTen (веб-корпус шведської мови)
teTenTen (веб-корпус мови телугу)
thTenTen (веб-корпус тайської мови)
tlTenTen (веб-корпус таґальської мови)
trTenTen (веб-корпус турецької мови)
ukTenTen (веб-корпус української мови)
ukTenTen (веб-корпус мови урду)
zhTenTen (корпус китайської мови)

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ ^а ^б Jakubíček, Miloš; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). The Tenten Corpus Family (PDF). 7th International Corpus Linguistics Conference CL. Lancaster, UK: Lancaster University. с. 125—127. Процитовано 13 червня 2017.
↑ Word databases, language tools and solutions. Lexical Computing (брит.). Процитовано 29 квітня 2022.
↑ ICREA. www.icrea.cat. Процитовано 29 квітня 2022.
↑ Сергей Шаров. Политехнический музей (рос.). Процитовано 29 квітня 2022.
↑ Baroni, Marco; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). Large linguistically-processed web corpora for multiple languages (PDF). 11th Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations. Association for Computational Linguistics. Trento, Italy: Lancaster University. с. 87—90. Процитовано 13 червня 2017.
↑ Kilgarriff, Adam; Reddy, Siva; Pomikálek, Jan; Avinesh, PVS (May 2010). A Corpus Factory for Many Languages. 7th Language Resources and Evaluation Conference. Valletta, Malta: ELRA. Процитовано 13 червня 2017.
↑ Sharoff, Serge (2006). Creating general-purpose corpora using automated search engine queries. У Baroni (ред.). Wacky! Working papers on the Web as Corpus. Bologna, Italy: GEDIT. с. 63—98. ISBN 978-88-6027-004-7.
↑ Suchomel, Vít; Pomikálek, Jan (17 квітня 2012). Efficient web crawling for large text corpora (PDF). Proceedings of the seventh Web as Corpus Workshop (WAC7). 7th Web as Corpus Workshop. Lyon, France: Association for Computational Linguistics (ACL) on Web as Corpus. с. 39—43. Процитовано 13 червня 2017.
↑ ^а ^б Pomikálek, Jan (2011). Removing boilerplate and duplicate content from web corpora (PhD). Faculty of Informatics, Masaryk University. Процитовано 17 квітня 2017.
↑ TenTen Corpus Family. www.sketchengine.eu. Sketch Engine. Процитовано 23 жовтня 2018.

Посилання[ред. | ред. код]

Сімейство корпусів ТенТен (на веб-сайті Sketch Engine)
Сайт компанії Lexical Computing
Інструмент для дедублікації даних в масивах текстів ONION

[tenten-1] а ^б Jakubíček, Miloš; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). The Tenten Corpus Family (PDF). 7th International Corpus Linguistics Conference CL. Lancaster, UK: Lancaster University. с. 125—127. Процитовано 13 червня 2017.

[2] Word databases, language tools and solutions. Lexical Computing (брит.). Процитовано 29 квітня 2022.

[3] ICREA. www.icrea.cat. Процитовано 29 квітня 2022.

[4] Сергей Шаров. Политехнический музей (рос.). Процитовано 29 квітня 2022.

[5] Baroni, Marco; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). Large linguistically-processed web corpora for multiple languages (PDF). 11th Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations. Association for Computational Linguistics. Trento, Italy: Lancaster University. с. 87—90. Процитовано 13 червня 2017.

[6] Kilgarriff, Adam; Reddy, Siva; Pomikálek, Jan; Avinesh, PVS (May 2010). A Corpus Factory for Many Languages. 7th Language Resources and Evaluation Conference. Valletta, Malta: ELRA. Процитовано 13 червня 2017.

[7] Sharoff, Serge (2006). Creating general-purpose corpora using automated search engine queries. У Baroni (ред.). Wacky! Working papers on the Web as Corpus. Bologna, Italy: GEDIT. с. 63—98. ISBN 978-88-6027-004-7.

[crawling10-8] Suchomel, Vít; Pomikálek, Jan (17 квітня 2012). Efficient web crawling for large text corpora (PDF). Proceedings of the seventh Web as Corpus Workshop (WAC7). 7th Web as Corpus Workshop. Lyon, France: Association for Computational Linguistics (ACL) on Web as Corpus. с. 39—43. Процитовано 13 червня 2017.

[justext-9] а ^б Pomikálek, Jan (2011). Removing boilerplate and duplicate content from web corpora (PhD). Faculty of Informatics, Masaryk University. Процитовано 17 квітня 2017.

[10] TenTen Corpus Family. www.sketchengine.eu. Sketch Engine. Процитовано 23 жовтня 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Сімейство корпусів ТенТен

Зміст

Історія створення[ред. | ред. код]

Процес укладання[ред. | ред. код]

Інструменти для роботи з корпусами ТенТен[ред. | ред. код]

Структура даних у корпусах[ред. | ред. код]

Атрибути документа[ред. | ред. код]

Атрибути абзацу[ред. | ред. код]

Доступні корпуси ТенТен[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Посилання[ред. | ред. код]

Навігаційне меню

Сімейство корпусів ТенТен

Історія створення[ред. | ред. код]

Процес укладання[ред. | ред. код]

Інструменти для роботи з корпусами ТенТен[ред. | ред. код]

Структура даних у корпусах[ред. | ред. код]

Атрибути документа[ред. | ред. код]

Атрибути абзацу[ред. | ред. код]

Доступні корпуси ТенТен[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Посилання[ред. | ред. код]

Навігаційне меню

Пошук