Сімейство корпусів ТенТен

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники.

До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»).[1]

Щоб отримати доступ до корпусів ТенТен, необхідно авторизуватися та купити підписку на сайті Sketch Engine. Можна скористатися 30-денним пробним періодом.

Історія створення[ред. | ред. код]

Родина корпусів ТенТен — це спільний проєкт Центру обробки природних мов факультету інформатики Університету Масарика (Брно, Чехія) та компанії Lexical Computing[2]. Безпосередньо над розробкою корпусів ТенТен працювали[1]: Мілош Якубічек (чес. Miloš Jakubíček), Войтех Коварж (чес. Vojtěch Kovář), Павел Рихли (чес. Pavel Rychlý), Віт Сухомель (чес. Vít Suchomel) і Адам Кілґарріфф (англ. Adam Kilgarriff).

Концепція порівняльних веб-корпусів зародилася ще в 2006 р. Ця ідея належить Марку Бароні[3], професорові кафедри лінгвістики Каталонського інституту перспективних досліджень (англ. Catalan Institution for Research and Advanced Studies), Адамові Кілґарріффу, корпусному лінгвісту й одному з розробників Sketch Engine, і Сергію Шарову[4] — російському комп'ютерному лінгвісту. Згодом у 2013 р. на Сьомій міжнародній конференції з корпусної лінгвістики у Ланкастері (англ. 7th International Corpus Linguistics Conference CL) розробники із Університету Масарика та Sketch Engine презентували принципово новий проєкт — Сімейство веб-корпусів ТенТен, а також власне допоміжне програмне забезпечення для корпусних лінгвістів — SpiderLing, jusText і ONION.

Процес укладання[ред. | ред. код]

Процедура створення корпусів ТенТен базується на попередніх дослідженнях розробників щодо підготовки та опрацювання інформації для веб-корпусів.[5][6][7] До цього алгоритму входять наступні кроки:

  1. Насамперед веб-сканер SpiderLing завантажує величезну кількість даних зі всесвітньої мережі.[8]
  2. Потім за допомогою інструмента jusText[9] зібрана інформація очищується від будь-якого нетекстового матеріалу у вихідному коді HTML. Важливо, щоб залишалися лише повні суцільні речення, а навігаційні посилання та верхні й нижні колонтитули було видалено.
  3. Проводиться лексичний аналіз (токенізація) матеріалів. Лексичний аналіз можна розділити на два етапи: сканування, яке сегментує вхідний рядок у синтаксичні одиниці, які називаються лексемами, та класифікує їх у класи токенів; та обчислення, яке перетворює лексеми в оброблені значення.
  4. Наступний етап — дедублікація даних у корпусі. Вона полягає у виявленні та видаленні однакових за змістом даних. З цією метою застосовується ще один інструмент для роботи з масивами текстів — ONION (ONe Instance ONly).[9] Потреба в дедублікації виникає через такі поширені в Інтернеті явища, як копіювання, цитування, покликання на джерело, тощо.
  5. Останній крок — морфологічна розмітка корпусу: для кожної словоформи визначаються теги (граматичні ознаки).

Інструменти для роботи з корпусами ТенТен[ред. | ред. код]

Повний набір інструментів Search Engine складається з таких категорій:

  • Word Sketch та Word Sketch Difference — дослідження граматичних зв'язків у словосполученнях і колокаціях;
  • Thesaurus — генерування тезаурусів — словників синонімів або слів з певних семантичних полів;
  • Keywords та Bilingual Terms — створення вибірки ключових слів і термінів з корпусу однієї мови або порівняльних корпусів двох мов;
  • Word Lists — автоматичне укладання частотних словників;
  • N-grams — укладання частотних словників н-грам;
  • Concordance та Parallel Concordance — пошук у конкордансах, зокрема й двомовних. Ця опція дає змогу детально вивчити текст, досліджувати функціонування мови в контексті;
  • Text Type Analysis — аналіз даних зі всього корпусу.

Структура даних у корпусах[ред. | ред. код]

Усі корпуси ТенТен мають однакову специфічну структуру метаданих. Метадані містяться в структурних атрибутах, які стосуються окремих документів і параграфів у корпусі. Деякі корпуси ТенТен мають ще й додаткові специфічні атрибути.

Атрибути документа[ред. | ред. код]

  • Домен верхнього рівня — домен на найвищому рівні ієрархічної системи доменних імен (наприклад, «com»);
  • веб-сайт — ідентифікаційний рядок, що визначає сферу адміністративної автономії в Інтернеті (наприклад, «wikipedia.org»);
  • веб-домен — сукупність пов'язаних веб-сторінок (наприклад, «uk.wikipedia.org»);
  • дата сканування — дата, коли документ було завантажено з Інтернету;
  • URL — уніфікований локатор ресурсу з посиланням на джерело документа;
  • підрахунок слів — кількість слів у документі;
  • довжина — класифікація документа за діапазоном, яка визначається його довжиною та може вимірюватися тисячами слів.

Атрибути абзацу[ред. | ред. код]

  • Заголовок — числовий атрибут, що відрізняє колонтитули та подібні заголовки від звичайного основного тексту (якщо абзац є заголовком — його позначають «1», якщо колонтитулом — «0»).

Доступні корпуси ТенТен[ред. | ред. код]

Станом на квітень 2022 року за допомогою Sketch Engine можна отримати доступ до таких корпусів:[10]

  1. arTenTen (веб-корпус арабської мови)
  2. beTenTen (веб-корпус білоруської мови)
  3. bgTenTen (веб-корпус болгарської мови)
  4. caTenTen (веб-корпус каталонської мови)
  5. cebTenTen (веб-корпус себуанської мови)
  6. csTenTen (веб-корпус чеської мови)
  7. daTenTen (веб-корпус данської мови)
  8. deTenTen (веб-корпус німецької мови)
  9. elTenTen (веб-корпус грецької мови)
  10. enTenTen (веб-корпус англійської мови)
  11. esTenTen (веб-корпус іспанської мови з підкорпусами європейського й американського мовних варіантів іспанської)
  12. etTenTen (веб-корпус естонської мови)
  13. fiTenTen (веб-корпус фінської мови)
  14. frTenTen (веб-корпус французької мови)
  15. heTenTen (веб-корпус івриту)
  16. hiTenTen (веб-корпус гінді)
  17. huTenTen (веб-корпус угорської мови)
  18. itTenTen (веб-корпус італійської мови)
  19. isTenTen (веб-корпус ісландської мови)
  20. jaTenTen (веб-корпус японської мови)
  21. kmTenTen (веб-корпус кхмерської мови)
  22. koTenTen (веб-корпус корейської мови)
  23. loTenTen (веб-корпус лаоської мови)
  24. ltTenTen (веб-корпус литовської мови)
  25. lvTenTen (веб-корпус латиської мови)
  26. miTenTen (веб-корпус мови маорі)
  27. nlTenTen (веб-корпус нідерландської мови)
  28. noTenTen (веб-корпус норвезької мови)
  29. plTenTen (веб-корпус польської мови)
  30. ptTenTen (веб-корпус португальської мови)
  31. roTenTen (веб-корпус румунської мови)
  32. ruTenTen (веб-корпус російської мови)
  33. skTenTen (веб-корпус словацької мови)
  34. slTenTen (веб-корпус словенської мови)
  35. svTenTen (веб-корпус шведської мови)
  36. teTenTen (веб-корпус мови телугу)
  37. thTenTen (веб-корпус тайської мови)
  38. tlTenTen (веб-корпус таґальської мови)
  39. trTenTen (веб-корпус турецької мови)
  40. ukTenTen (веб-корпус української мови)
  41. ukTenTen (веб-корпус мови урду)
  42. zhTenTen (корпус китайської мови)

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б Jakubíček, Miloš; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). The Tenten Corpus Family (PDF). 7th International Corpus Linguistics Conference CL. Lancaster, UK: Lancaster University. с. 125—127. Процитовано 13 червня 2017.
  2. Word databases, language tools and solutions. Lexical Computing (en-GB) . Процитовано 29 квітня 2022.
  3. ICREA. www.icrea.cat. Процитовано 29 квітня 2022.
  4. Сергей Шаров. Политехнический музей (рос.). Процитовано 29 квітня 2022.
  5. Baroni, Marco; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (July 2013). Large linguistically-processed web corpora for multiple languages (PDF). 11th Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations. Association for Computational Linguistics. Trento, Italy: Lancaster University. с. 87—90. Процитовано 13 червня 2017.
  6. Kilgarriff, Adam; Reddy, Siva; Pomikálek, Jan; Avinesh, PVS (May 2010). A Corpus Factory for Many Languages. 7th Language Resources and Evaluation Conference. Valletta, Malta: ELRA. Процитовано 13 червня 2017.
  7. Sharoff, Serge (2006). Creating general-purpose corpora using automated search engine queries. У Baroni (ред.). Wacky! Working papers on the Web as Corpus. Bologna, Italy: GEDIT. с. 63—98. ISBN 978-88-6027-004-7.
  8. Suchomel, Vít; Pomikálek, Jan (17 квітня 2012). Efficient web crawling for large text corpora (PDF). Proceedings of the seventh Web as Corpus Workshop (WAC7). 7th Web as Corpus Workshop. Lyon, France: Association for Computational Linguistics (ACL) on Web as Corpus. с. 39—43. Процитовано 13 червня 2017.
  9. а б Pomikálek, Jan (2011). Removing boilerplate and duplicate content from web corpora (PhD). Faculty of Informatics, Masaryk University. Процитовано 17 квітня 2017.
  10. TenTen Corpus Family. www.sketchengine.eu. Sketch Engine. Процитовано 23 жовтня 2018.

Посилання[ред. | ред. код]