Семантичний розрив

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Семантичний розрив характеризує різницю між двома описами об'єкту за допомогою різних лінгвістичних репрезентацій (наприклад, мов чи символів). Гайн визначає семантичний розрив як «різницю у значенні конструкцій, сформованих всередині різних систем представлення».[1] У інформатиці проблема семантичного розриву постає, коли звичайні людські справи, дії, спостереження чи задачі мають бути перетворені на представлення, що підходить для того чи іншого виду обчислення.[2][3][1]

У більш точному сенсі, семантичний розрив спричинений різницею між розпливчатим, неоднозначним вираженням якого-небудь знання (майже завжди контекстно-залежного) якою-небудь потужною мовою (наприклад, природною мовою людини), і репрезентацією цього знання у обчислювальній, однозначній і повторюваній формі за допомогою формальної мови (наприклад, мови програмування обчислювальної машини). Семантика об'єкта залежить від контексту, у якому він знаходиться чи розглядається. На практиці це означає, що будь-яке формальне представлення об'єктів чи дій реального світу завжди потребує перекладу (трансляції) високорівневих експертних знань (знову-таки, майже завжди контекст-залежних) у елементарні і відтворювані низькорівневі операції комп'ютера. Через те, що природна мова дозволяє формулювати задачі, недоступні для обчислення і строгої формалізації, у загальному випадку не існує універсального методу для подібного перетворення. Більш того, аналіз мов у ієрархії Чомскі показує, що не існує формального (тобто, повністю автоматизованого) методу перекладу з однієї мови на іншу при переході через деякий рівень виразності.

Теоретичне підгрунтя[ред. | ред. код]

Згідно з Тезою Черча-Тюрінга (яку ще не доведено, але загальноприйнятою вважається її істинність), машина Тюрінга і всі еквівалентні їй формальні мови, такі як лямбда-числення, відповідно виконують і представляють всі формальні операції так, як це може зробити людина, здійснюючи обчислення. Але вибір підходящих операцій для правильного обчислення сам по собі не є формальним алгоритмом; більш того, він залежить від обчислюваності проблеми, яка розв'язується. Такі задачі, як проблема зупинки, можна сформулювати з довільним рівнем детальності природною мовою людини, але алгоритмічне представлення, у загальному випадку, може ніколи не відпрацювати повністю на машині, або ж не поверне потрібного результату, як доведено теоремою Райса[en].

Формальні мови[ред. | ред. код]

Практичні наслідки[ред. | ред. код]

Приклади[ред. | ред. код]

Аналіз зображень[ред. | ред. код]

Сематничний розрив при аналізі зображення

Аналіз зображень є типовою областю, для якої потрібен високий рівень абстракції від низькорівневих методів і де семантичний розрив негайно впливає на користувача. Якщо для визначення змісту зображення необхідно визначити значення зображення, єдиною доступною незалежною інформацією є дані низького рівня — пікселі. Текстові анотації завжди залежать від знань, здатності до вираження та конкретної мови того, хто створює анотацію, а отже, є ненадійним джерелом. Для розпізнавання сцен по сирим даним зображення, алгоритми вибору та обробки пікселів повинні бути об'єднані та параметризовані адекватно і, нарешті, пов'язані з природним описом. Навіть простий мовний опис форми або кольору, наприклад круглого або жовтого, вимагає цілком різних методів математичної формалізації, які не є інтуїтивно зрозумілими, не унікальними та незмінними.

Джерела[ред. | ред. код]

  1. а б Hein, A.M., Identification and Bridging of Semantic Gaps in the Context of Multi-Domain Engineering, Abstracts of the 2010 Forum on Philosophy, Engineering & Technology. Colorado. [1]
  2. Smeulders AWM, Worring M, Santini S, Gupta A, Jain R. Content-Based Image Retrieval at the End of the Early Years. IEEE Trans Pattern Anal Mach Intell 2000;22(12):1349-80.
  3. Dorai C, Venkatesh S. Bridging the Semantic Gap with Computational Media Aesthetics. IEEE MultiMedia 2003;10(2):15-17.