Оксфордський корпус англійської мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Оксфордський корпус англійської мови (Oxford English Corpus) — це текстовий корпус англійської мови 21-го століття, який використовується розробниками Оксфордського словника англійської мови та програмою мовних досліджень Oxford University Press. Це найбільший корпус у своєму роді, який містить майже 2,1 мільярди слів.[1] Вона включає мову Великобританії, США, Ірландії, Австралії, Нової Зеландії, Карибського басейну, Канади, Індії, Сінгапуру та Південної Африки. Текст в основному збирається з веб-сторінок; деякі друковані тексти, наприклад, академічні журнали, були зібрані для доповнення окремих предметних областей.[2] Джерелами є твори різного роду, від «літературних романів і спеціалізованих журналів до щоденних газет і журналів і від Хансарда до мови блогів, електронної пошти та соціальних мереж». Це можна порівняти з подібними базами даних, які випробовують лише певний тип письма. Корпус зазвичай доступний лише для дослідників Oxford University Press, але інші дослідники, які можуть продемонструвати сильну потребу, можуть подати заявку на доступ.[2][3]

Цифрова версія Oxford English Corpus відформатована в XML і зазвичай аналізується за допомогою програмного забезпечення Sketch Engine.[4] Станом на 27 квітня 2006 року база даних словника налічувала 1 мільярд слів.[5]

Кожен документ в OE Corpus супроводжується іменуванням метаданих :

  • заголовок
  • автор (якщо відомий; на багатьох веб-сайтах це важко визначити достовірно)
  • стать автора (якщо відомо)
  • тип мови (наприклад Британська англійська, Американська англійська)
  • вихідний веб-сайт
  • рік (+ дата, якщо відомо)
  • дата збору
  • домен + субдомен
  • статистика документа (кількість лексем, речень тощо)

Примітки

[ред. | ред. код]
  1. The Oxford English Corpus. Sketch Engine. Lexical Computing CZ s.r.o. Процитовано 27 жовтня 2016.
  2. а б The Oxford English Corpus. Oxford Dictionaries Online. Oxford University Press. Архів оригіналу за 1 січня 2012. Процитовано 8 листопада 2014.
  3. Compare COCA. Corpus of Contemporary American English. Архів оригіналу за 7 листопада 2014. Процитовано 8 листопада 2014.
  4. The Oxford English Corpus. Retrieved February 4, 2014.
  5. Dictionary database has billion words. Northwest Herald. 27 квітня 2006. с. 2. Процитовано 15 березня 2020 — через Newspapers.com.

Дивіться також

[ред. | ред. код]