Спрощення тексту

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Спрощення тексту – це операція, яка використовується в обробці природною мовою для модифікації, вдосконалення, класифікації чи іншої обробки існуючого корпусу зрозумілого тексту таким чином, що граматика та структура прози значно спрощуються, а основне значення та інформація залишаються так само. Спрощення тексту є важливою сферою досліджень, оскільки природні людські мови зазвичай містять великі словникові запаси та складні  конструкції, які не легко обробити за допомогою автоматизації . З точки зору зменшення мовної різноманітності може застосовуватися семантична компресія для обмеження та спрощення набору слів, що використовуються в даних текстах.

Приклад[ред. | ред. код]

Спрощення тексту показано на прикладі Сіддхартана (2006)[1]. Перше речення містить два відносні речення та одне поєднане дієслівне словосполучення. Система спрощення тексту спрямована на спрощення першого речення до другого речення.

Аналітик також зазначив, що зміцненню міді сприяє звіт чиказьких закупівельних агентів, який передує повному звіту закупівельних агентів, який повинен бути представлений сьогодні, і вказує, що може містити повний звіт.

Аналітик також зазначив, що зміцненню міді також сприяє звіт чиказьких закупівельних агентів. Чиказький звіт передує повному звіту закупівельних агентів. Чиказький звіт дає вказівку на те, що може містити повний звіт. Повний звіт має вийти сьогодні. Одним із підходів до спрощення тексту є лексичне спрощення за допомогою лексичної заміни, двоступеневий процес, що складається із виявлення складних слів та заміни їх простішими синонімами. Ключовою проблемою тут є визначення складних слів, яку виконує класифікатор машинного навчання, навчений на маркованих даних. Поліпшення порівняно з класичними методами застосування двійкових міток до простих чи складних слів полягає в тому, щоб попросити науковців коригувати слова в порядку складності; це призводить до вищої узгодженості отриманих міток.[2]

Примітки[ред. | ред. код]

  1. Siddharthan, Advaith (28 March 2006). Syntactic Simplification and Text Cohesion. Research on Language and Computation 4 (1): 77–109. doi:10.1007/s11168-006-9011-1.  Проігноровано невідомий параметр |s2cid= (довідка)
  2. Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (August 2019). Comparative judgments are more consistent than binary classification for labelling word complexity. Proceedings of the 13th Linguistic Annotation Workshop (en-us): 208–214. doi:10.18653/v1/W19-4024. Процитовано 22 November 2019.  Проігноровано невідомий параметр |doi-access= (довідка)

Джерела[ред. | ред. код]

  • Wei Xu, Chris Callison-Burch and Courtney Napoles. "Problems in Current Text Simplification Research". In Transactions of the Association for Computational Linguistics (TACL), Volume 3, 2015, Pages 283–297. (англ.)
  • Advaith Siddharthan. "Syntactic Simplification and Text Cohesion". In Research on Language and Computation, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, the Netherlands. (англ.)
  • Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral and Graciela Gonzalez. Towards Effective Sentence Simplification for Automatic Processing of Biomedical Text. In Proc. of the NAACL-HLT 2009, Boulder, USA, June. [1] (англ.)

Посилання[ред. | ред. код]