Сімейство корпусів ТенТен
Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники.
До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»).[1]
Щоб отримати доступ до корпусів ТенТен, необхідно авторизуватися та купити підписку на сайті Sketch Engine. Можна скористатися 30-денним пробним періодом.
Історія створення[ред. | ред. код]
Родина корпусів ТенТен — це спільний проєкт Центру обробки природних мов факультету інформатики Університету Масарика (Брно, Чехія) та компанії Lexical Computing[2]. Безпосередньо над розробкою корпусів ТенТен працювали[1]: Мілош Якубічек (чес. Miloš Jakubíček), Войтех Коварж (чес. Vojtěch Kovář), Павел Рихли (чес. Pavel Rychlý), Віт Сухомель (чес. Vít Suchomel) і Адам Кілґарріфф (англ. Adam Kilgarriff).
Концепція порівняльних веб-корпусів зародилася ще в 2006 р. Ця ідея належить Марку Бароні[3], професорові кафедри лінгвістики Каталонського інституту перспективних досліджень (англ. Catalan Institution for Research and Advanced Studies), Адамові Кілґарріффу, корпусному лінгвісту й одному з розробників Sketch Engine, і Сергію Шарову[4] — російському комп'ютерному лінгвісту. Згодом у 2013 р. на Сьомій міжнародній конференції з корпусної лінгвістики у Ланкастері (англ. 7th International Corpus Linguistics Conference CL) розробники із Університету Масарика та Sketch Engine презентували принципово новий проєкт — Сімейство веб-корпусів ТенТен, а також власне допоміжне програмне забезпечення для корпусних лінгвістів — SpiderLing, jusText і ONION.
Процес укладання[ред. | ред. код]
Процедура створення корпусів ТенТен базується на попередніх дослідженнях розробників щодо підготовки та опрацювання інформації для веб-корпусів.[5][6][7] До цього алгоритму входять наступні кроки:
- Насамперед веб-сканер SpiderLing завантажує величезну кількість даних зі всесвітньої мережі.[8]
- Потім за допомогою інструмента jusText[9] зібрана інформація очищується від будь-якого нетекстового матеріалу у вихідному коді HTML. Важливо, щоб залишалися лише повні суцільні речення, а навігаційні посилання та верхні й нижні колонтитули було видалено.
- Проводиться лексичний аналіз (токенізація) матеріалів. Лексичний аналіз можна розділити на два етапи: сканування, яке сегментує вхідний рядок у синтаксичні одиниці, які називаються лексемами, та класифікує їх у класи токенів; та обчислення, яке перетворює лексеми в оброблені значення.
- Наступний етап — дедублікація даних у корпусі. Вона полягає у виявленні та видаленні однакових за змістом даних. З цією метою застосовується ще один інструмент для роботи з масивами текстів — ONION (ONe Instance ONly).[9] Потреба в дедублікації виникає через такі поширені в Інтернеті явища, як копіювання, цитування, покликання на джерело, тощо.
- Останній крок — морфологічна розмітка корпусу: для кожної словоформи визначаються теги (граматичні ознаки).
Інструменти для роботи з корпусами ТенТен[ред. | ред. код]
Повний набір інструментів Search Engine складається з таких категорій:
- Word Sketch та Word Sketch Difference — дослідження граматичних зв'язків у словосполученнях і колокаціях;
- Thesaurus — генерування тезаурусів — словників синонімів або слів з певних семантичних полів;
- Keywords та Bilingual Terms — створення вибірки ключових слів і термінів з корпусу однієї мови або порівняльних корпусів двох мов;
- Word Lists — автоматичне укладання частотних словників;
- N-grams — укладання частотних словників н-грам;
- Concordance та Parallel Concordance — пошук у конкордансах, зокрема й двомовних. Ця опція дає змогу детально вивчити текст, досліджувати функціонування мови в контексті;
- Text Type Analysis — аналіз даних зі всього корпусу.
Структура даних у корпусах[ред. | ред. код]
Усі корпуси ТенТен мають однакову специфічну структуру метаданих. Метадані містяться в структурних атрибутах, які стосуються окремих документів і параграфів у корпусі. Деякі корпуси ТенТен мають ще й додаткові специфічні атрибути.
Атрибути документа[ред. | ред. код]
- Домен верхнього рівня — домен на найвищому рівні ієрархічної системи доменних імен (наприклад, «com»);
- веб-сайт — ідентифікаційний рядок, що визначає сферу адміністративної автономії в Інтернеті (наприклад, «wikipedia.org»);
- веб-домен — сукупність пов'язаних веб-сторінок (наприклад, «uk.wikipedia.org»);
- дата сканування — дата, коли документ було завантажено з Інтернету;
- URL — уніфікований локатор ресурсу з посиланням на джерело документа;
- підрахунок слів — кількість слів у документі;
- довжина — класифікація документа за діапазоном, яка визначається його довжиною та може вимірюватися тисячами слів.
Атрибути абзацу[ред. | ред. код]
- Заголовок — числовий атрибут, що відрізняє колонтитули та подібні заголовки від звичайного основного тексту (якщо абзац є заголовком — його позначають «1», якщо колонтитулом — «0»).
Доступні корпуси ТенТен[ред. | ред. код]
Станом на квітень 2022 року за допомогою Sketch Engine можна отримати доступ до таких корпусів:[10]
- arTenTen (веб-корпус арабської мови)
- beTenTen (веб-корпус білоруської мови)
- bgTenTen (веб-корпус болгарської мови)
- caTenTen (веб-корпус каталонської мови)
- cebTenTen (веб-корпус себуанської мови)
- csTenTen (веб-корпус чеської мови)
- daTenTen (веб-корпус данської мови)
- deTenTen (веб-корпус німецької мови)
- elTenTen (веб-корпус грецької мови)
- enTenTen (веб-корпус англійської мови)
- esTenTen (веб-корпус іспанської мови з підкорпусами європейського й американського мовних варіантів іспанської)
- etTenTen (веб-корпус естонської мови)
- fiTenTen (веб-корпус фінської мови)
- frTenTen (веб-корпус французької мови)
- heTenTen (веб-корпус івриту)
- hiTenTen (веб-корпус гінді)
- huTenTen (веб-корпус угорської мови)
- itTenTen (веб-корпус італійської мови)
- isTenTen (веб-корпус ісландської мови)
- jaTenTen (веб-корпус японської мови)
- kmTenTen (веб-корпус кхмерської мови)
- koTenTen (веб-корпус корейської мови)
- loTenTen (веб-корпус лаоської мови)
- ltTenTen (веб-корпус литовської мови)
- lvTenTen (веб-корпус латиської мови)
- miTenTen (веб-корпус мови маорі)
- nlTenTen (веб-корпус нідерландської мови)
- noTenTen (веб-корпус норвезької мови)
- plTenTen (веб-корпус польської мови)
- ptTenTen (веб-корпус португальської мови)
- roTenTen (веб-корпус румунської мови)
- ruTenTen (веб-корпус російської мови)
- skTenTen (веб-корпус словацької мови)
- slTenTen (веб-корпус словенської мови)
- svTenTen (веб-корпус шведської мови)
- teTenTen (веб-корпус мови телугу)
- thTenTen (веб-корпус тайської мови)
- tlTenTen (веб-корпус таґальської мови)
- trTenTen (веб-корпус турецької мови)
- ukTenTen (веб-корпус української мови)
- ukTenTen (веб-корпус мови урду)
- zhTenTen (корпус китайської мови)
Див. також[ред. | ред. код]
Примітки[ред. | ред. код]
- ↑ а б Jakubíček, Miloš; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). The Tenten Corpus Family (PDF). 7th International Corpus Linguistics Conference CL. Lancaster, UK: Lancaster University. с. 125—127. Процитовано 13 червня 2017.
- ↑ Word databases, language tools and solutions. Lexical Computing (брит.). Процитовано 29 квітня 2022.
- ↑ ICREA. www.icrea.cat. Процитовано 29 квітня 2022.
- ↑ Сергей Шаров. Политехнический музей (рос.). Процитовано 29 квітня 2022.
- ↑ Baroni, Marco; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). Large linguistically-processed web corpora for multiple languages (PDF). 11th Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations. Association for Computational Linguistics. Trento, Italy: Lancaster University. с. 87—90. Процитовано 13 червня 2017.
- ↑ Kilgarriff, Adam; Reddy, Siva; Pomikálek, Jan; Avinesh, PVS (May 2010). A Corpus Factory for Many Languages. 7th Language Resources and Evaluation Conference. Valletta, Malta: ELRA. Процитовано 13 червня 2017.
- ↑ Sharoff, Serge (2006). Creating general-purpose corpora using automated search engine queries. У Baroni (ред.). Wacky! Working papers on the Web as Corpus. Bologna, Italy: GEDIT. с. 63—98. ISBN 978-88-6027-004-7.
- ↑ Suchomel, Vít; Pomikálek, Jan (17 квітня 2012). Efficient web crawling for large text corpora (PDF). Proceedings of the seventh Web as Corpus Workshop (WAC7). 7th Web as Corpus Workshop. Lyon, France: Association for Computational Linguistics (ACL) on Web as Corpus. с. 39—43. Процитовано 13 червня 2017.
- ↑ а б Pomikálek, Jan (2011). Removing boilerplate and duplicate content from web corpora (PhD). Faculty of Informatics, Masaryk University. Процитовано 17 квітня 2017.
- ↑ TenTen Corpus Family. www.sketchengine.eu. Sketch Engine. Процитовано 23 жовтня 2018.
Посилання[ред. | ред. код]
- Сімейство корпусів ТенТен (на веб-сайті Sketch Engine)
- Сайт компанії Lexical Computing
- Інструмент для дедублікації даних в масивах текстів ONION