Корпус розмовної англійської мови

Корпус розмовної англійської мови (SEC від англ. Spoken English Corpus) — це лінгвістичний корпус записів розмовної британської англійської мови, складений протягом 1984—1987 років. Посібник з корпусу можна знайти у Міжнародному комп'ютерному архіві сучасної та середньовічної англійської мови (ICAME).^[1]

Історія[ред. | ред. код]

Проект Корпусу розмовної англійської мови (SEC) у 1984—1985 роках розроблявся у співпраці Фондом гуманітарних досліджень Ланкастерського університету та IBM UK Ltd, а згодом тільки IBM UK Ltd. Розробкою займалися підрозділ комп'ютерних досліджень англійської мови у Ланкастерському університеті на чолі з Джеффрі Лічем та Науковий центр IBM у Вінчестері на чолі з Джеффрі Кейем. Фінансування надавало IBM.^[2]

Матеріал корпусу[ред. | ред. код]

Корпус складається з 53 записаних уривків, переважно взятих з BBC, що вимовляються з акцентом, який зазвичай називають англійською літературною вимовою. Збірка охоплює такі категорії: коментарі, трансляція новин, лекції, діалоги, поезія, пропаганда.^[3] Корпус містить 52 637 слів на 339 хвилин. Склад корпусу описала Літа Тейлор у своїй статті 1996 року «The Compilation of the Govored English Corpus».^[4]


Категорія	Слів	%
Коментарі	9066	17
Трансляція новин	5235	10
Лекції на широку аудиторію	4471	8
Лекції на обмежену аудиторію	7451	14
Релігійне мовлення, включаючи літургію	2043	4
Репортаж у журнальному стилі	4170	9
Художня література	7299	14
Поезія	1292	2
Діалоги	6826	13
Пропаганда	1432	3
Інше	3352	6
Разом	52637	100

^[5]

Транскрибування[ред. | ред. код]

Для транскрибування інтонації записаного матеріалу було розроблено певну систему. Двоє транскрибаторів, Джеррі Ноулз і Брайоні Вільямс, за підтримки Літи Тейлор, проаналізували весь корпус. Систему транскрибування пояснив Б. Вільямс^[6], а Брайан Пікерінг провів експеримент, щоб оцінити ступінь узгодження у роботі обох транскрибаторів щодо частини корпусу, що містить близько 1000 тонів.^[7] Ступінь узгодження був високий.

Важливою властивістю сучасного корпусу є те, що він може оброблятися комп'ютером: наразі корпус, як правило, розміщується на жорсткому диску, а не на книжковій полиці. Представляючи корпус у книжковій формі, автори враховували потреби корпусних лінгвістів старого зразка, а також тих, хто ще не знайомий з корпусами. Будь-хто, у кого є корпус на диску, може зробити друковані копії більшості файлів, але без спеціального шрифту для друку просодичних символів тексти транскрипції будуть непридатні для друку або читання. З цієї причини для публікації обрано саме просодичний варіант.

Вся транскрипція у нинішньому друкованому вигляді була зроблена Пітером Олдерсоном, який пізніше обійняв посаду менеджера з дослідження мовлення в IBM. Згодом том був названий «Корпус формального британського англійського мовлення: розмовний англійський корпус Ланкастер/IBM» і вперше опублікований Лонгманом у 1996 році, пізніше Routledge у 2013 році. Наразі книга доступна в онлайн-книгарнях, включаючи Routledge і Book Depository, або в електронному форматі у Google Play Books.^[8]^[9]

Інші особливості[ред. | ред. код]

Граматичні позначки до кожного слова на основі тегів CLAWS1 було додано до тексту SEC.^[10]^[11] Той факт, що тегування було у машиночитній формі, дозволяв співвідносити граматичну та просодичну інформацію в текстах. Надалі у роботі використовувалися ймовірнісні моделі для розвитку граматичних тегів і автоматизації синтаксичного аналізу.^[12]

Енн Віхманн опублікувала своє дослідження про інтонацію SEC «Інтонація в тексті та дискурсі: початок, середина та кінець» у 2000 році.^[13]

Машиночитний корпус розмовної англійської мови (MARSEC)[ред. | ред. код]

Хоча текст і пов'язані з ним теги існували у машиночитній формі, самі записи існували лише у магнітофонному вигляді. Співпраця між науковцями з університетів Ланкастера та Лідса у Сполученому Королівстві, яка фінансувалася Радою економічних і соціальних досліджень у 1992—1994 роках, мала на меті створити версію корпусу, що містила би записи в цифровій формі.^[14] Головними дослідниками були Джеррі Ноулз і Тамаш Вараді (Ланкастер), Пітер Роуч і Саймон Арнфілд (Лідс). Схему проекту виклав Ноулз.^[15] Оцифровані записи були записані на CD-ROM. Пізніше диск зробили доступним для завантаження в дослідницьких цілях з Університету Лідса (цієї функції більше немає).^[16]

Aix-MARSEC[ред. | ред. код]

Робота над MARSEC в Ланкастері та Лідсі була завершена приблизно в 1995 році, але згодом корпус значно розвинувся в Університеті Екс-ан-Прованс у Франції, під керівництвом Деніеля Херста.^[17] Зараз база даних складається з двох основних частин: оцифрованих записів від MARSEC та лінгвістичної розмітки. Розмітку здійснено на дев'яти рівнях, включаючи фонеми, склади, слова, наголоси, одиниці ритму та другорядні й головні одиниці мовлення. Незабаром будуть інтегровані два додаткові рівні: граматична розмітка від CLAWS і система граматичних властивостей, розроблена в Екс-ан-Прованс.^[18] Можливим недоліком такої доробки є те, що пошук у корпусі можна здійснювати лише за допомогою спеціально написаних скриптів.^[19]

Аудіозаписи Aix-MARSEC доступні тут

Примітки[ред. | ред. код]

↑ "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Архів оригіналу за 8 березня 2022. Процитовано 15 жовтня 2020.
↑ Leech, Geoffrey. (1996). "The Spoken English Corpus in its context." Foreword. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with speech. Longman. ISBN 9780582045347.
↑ Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. с. 63. ISBN 9780415286220. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
↑ Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 20—37. ISBN 9780582045347.
↑ 7.2. SEC, MARSEC and Aix-MARSEC. Архів оригіналу за 1 квітня 2022. Процитовано 17 квітня 2022.
↑ Williams, Briony. (1996). "The formulation of an intonation transcription system for British English." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 38—57. ISBN 9780582045347.
↑ Pickering, Brian. (1996). "Analysis of transcriber differences in the SEC." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 61—86. ISBN 9780582045347.
↑ "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Процитовано 2018-07-22. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
↑ "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Архів оригіналу за 30 січня 2019. Процитовано 30 січня 2019.
↑ Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 30. ISBN 9780582045347.
↑ https://ucrel.lancs.ac.uk/claws1tags.html. ucrel.lancs.ac.uk. Retrieved 2020-10-15. Архів оригіналу за 19 квітня 2021. Процитовано 17 квітня 2022.
↑ Sampson, Geoffrey. (1987). "Probabilistic models of analysis." Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.
↑ "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Архів оригіналу за 17 квітня 2022. Процитовано 15 жовтня 2020.
↑ Roach, P., Knowles, G., Varadi, T. and Arnfield, S. (1994) "MARSEC: a MAchine-readable Spoken English Corpus". Journal of the International Phonetic Association. 23 (2). с. 47—54. ISSN 0025-1003.
↑ Knowles, G. "Converting a corpus into a relational database: SEC becomes MARSEC" Geoffrey, Leech; Myers, Greg; Thomas, Jenny (1995). Spoken English on Computer. Longman. с. 208—219. ISBN 9780582250215.
↑ "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Архів оригіналу за 21 січня 2022. Процитовано 15 жовтня 2020.
↑ Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Архів оригіналу за 23 січня 2010. Процитовано 15 квітня 2013..
↑ Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives". Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects. ravaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
↑ Wichmann, Anne "Speech corpora and spoken corpora" Ludeling, Anke; Kyto, Merja (2006). Corpus Linguistics 1. Walter de Gruyter. с. 200. ISBN 9783110180435.

[1] "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Архів оригіналу за 8 березня 2022. Процитовано 15 жовтня 2020.

[2] Leech, Geoffrey. (1996). "The Spoken English Corpus in its context." Foreword. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with speech. Longman. ISBN 9780582045347.

[3] Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. с. 63. ISBN 9780415286220. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.

[4] Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 20—37. ISBN 9780582045347.

[5] 7.2. SEC, MARSEC and Aix-MARSEC. Архів оригіналу за 1 квітня 2022. Процитовано 17 квітня 2022.

[6] Williams, Briony. (1996). "The formulation of an intonation transcription system for British English." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 38—57. ISBN 9780582045347.

[7] Pickering, Brian. (1996). "Analysis of transcriber differences in the SEC." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 61—86. ISBN 9780582045347.

[8] "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Процитовано 2018-07-22. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.

[9] "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Архів оригіналу за 30 січня 2019. Процитовано 30 січня 2019.

[10] Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 30. ISBN 9780582045347.

[11] ttps://ucrel.lancs.ac.uk/claws1tags.html. ucrel.lancs.ac.uk. Retrieved 2020-10-15. Архів оригіналу за 19 квітня 2021. Процитовано 17 квітня 2022.

[12] Sampson, Geoffrey. (1987). "Probabilistic models of analysis." Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.

[13] "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Архів оригіналу за 17 квітня 2022. Процитовано 15 жовтня 2020.

[14] Roach, P., Knowles, G., Varadi, T. and Arnfield, S. (1994) "MARSEC: a MAchine-readable Spoken English Corpus". Journal of the International Phonetic Association. 23 (2). с. 47—54. ISSN 0025-1003.

[15] Knowles, G. "Converting a corpus into a relational database: SEC becomes MARSEC" Geoffrey, Leech; Myers, Greg; Thomas, Jenny (1995). Spoken English on Computer. Longman. с. 208—219. ISBN 9780582250215.

[16] "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Архів оригіналу за 21 січня 2022. Процитовано 15 жовтня 2020.

[17] Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Архів оригіналу за 23 січня 2010. Процитовано 15 квітня 2013..

[18] Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives". Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects. ravaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.

[19] Wichmann, Anne "Speech corpora and spoken corpora" Ludeling, Anke; Kyto, Merja (2006). Corpus Linguistics 1. Walter de Gruyter. с. 200. ISBN 9783110180435.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Корпус розмовної англійської мови

Зміст

Історія[ред. | ред. код]

Матеріал корпусу[ред. | ред. код]

Транскрибування[ред. | ред. код]

Інші особливості[ред. | ред. код]

Машиночитний корпус розмовної англійської мови (MARSEC)[ред. | ред. код]

Aix-MARSEC[ред. | ред. код]

Примітки[ред. | ред. код]

Навігаційне меню

Корпус розмовної англійської мови

Історія[ред. | ред. код]

Матеріал корпусу[ред. | ред. код]

Транскрибування[ред. | ред. код]

Інші особливості[ред. | ред. код]

Машиночитний корпус розмовної англійської мови (MARSEC)[ред. | ред. код]

Aix-MARSEC[ред. | ред. код]

Примітки[ред. | ред. код]

Навігаційне меню

Пошук