Влучність та повнота: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
м Olexa Riznyk перейменував сторінку з Точність та повнота на Влучність та повнота поверх перенаправлення: уточнено переклад, див. http://molodyvcheny.in.ua/files/journal/2018/10/63.pdf
уточнено, актуалізовано і доперекладено «Precision and recall»
Рядок 1: Рядок 1:
[[Файл:Precisionrecall uk.svg|міні|636x636пкс|Точність і повнота]]
[[Файл:Precisionrecall uk.svg|міні|636x636пкс|Влучність і повнота]]
В [[Розпізнавання образів|розпізнаванні образів]], [[Інформаційний пошук|інформаційному пошуку]] та [[Класифікація (машинне навчання)|класифікації]], '''влу́чність'''<ref name="ГущинСич2018">{{cite journal|last1=Гущин|first1=І.&nbsp;В.|last2=Сич|first2=Д.&nbsp;О.|title=Аналіз впливу попередньої обробки тексту на результати текстової класифікації|date=жовтень 2018|journal=Молодий вчений|volume=10|issue=62|pages=264-266|publisher=Харківський національний університет імені В.Н. Каразіна|url=http://molodyvcheny.in.ua/files/journal/2018/10/63.pdf}}</ref> ({{lang-en|precision}}, яку також називають {{нп|Прогностична значущість позитивних результатів|прогностичною значущістю позитивних результатів||Positive predictive value}}<ref name="Швець2015">{{cite article|last=Швець|first=У.&nbsp;С.|year=2015|title=Основні поняття доказової медицини|url=http://ir.nmapo.edu.ua:8080/jspui/bitstream/lib/341/1/%D0%BF%D0%BE%D0%BD%D1%8F%D1%82%D1%82%D1%8F%20%D0%B4%D0%BE%D0%BA%D0%B0%D0%B7%20%D0%BC.pdf}}</ref>) є часткою релевантних зразків серед знайдених, тоді як '''повнота́'''<ref name="ГущинСич2018"/> ({{lang-en|recall}}, відома також як {{нп|Чутливість і специфічність|чутливість||Sensitivity and specificity}}) є часткою загального числа позитивних зразків, яку було дійсно знайдено. Як влучність, так і повнота, відтак ґрунтуються на розумінні та мірі [[Релевантність|релевантності]]. Влучність не слід плутати з {{нп|Точність (бінарна класифікація)|''точністю''||Accuracy (binary classification)}} ({{lang-en|accuracy}}), яка є часткою правильно спрогнозованих результатів, як позитивних, так і негативних.<ref name="Коваль2016">{{cite journal|first1=С.С.|last1=Коваль|first2=С.С.|last2=Макеєв|first3=Т.Г.|last3=Новiкова|title=Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку|publisher=ДУ «Iнститут нейрохiрургiї iм. акад. А.П. Ромоданова НАМН України»|location=Київ|journal=Клінічна онкологія|volume=3|issue=23|year=2016|url=https://www.clinicaloncology.com.ua/article/16693/ocinka-efektivnosti-zastosuvannya-metodiki-integracii-danix-ofekt-mrt-u-diagnostici-metastaziv-golovnogo-mozku}}</ref> Влучність стосується лише позитивних результатів.
В задачах [[Теорія розпізнавання образів|розпізнавання образів]], [[Інформаційний пошук|інформаційного пошуку]] та [[Бінарна класифікація|бінарної класифікації]], '''точність''' (також називають {{Нп|Позитивно спрогнозована величина|позитивно спрогнозованою величиною||Positive and negative predictive values}}, {{lang-en|'''precision'''}})&nbsp;— частка правильно спрогнозованих екземплярів серед усіх знайдених, а '''повнота''' (також відома як {{Нп|Чутливість і специфічність|чутливість||Sensitivity and specificity}}, {{lang-en|'''recall'''}})&nbsp;— частка правильно спрогнозованих екземплярів відносно загальної кількості релевантних. Отже, як точність, так і повнота, ґрунтуються на розумінні і мірі [[Релевантність|релевантності]].


Нехай комп'ютерна програма для розпізнавання собак на фотографіях визначила 8 собак на зображенні, яке містить 12 собак і декілька не боязливих кішок. З 8 виявлених як собак, 5 собак насправді собаки (правильно спрогнозовані), а інші&nbsp;— це кішки, які були розпізнані як собаки (помилкові спрацьовування). Точність програми буде 5/8, а повнота&nbsp;— 5/12. Розглянемо інший приклад, коли [[пошукова машина]] повертає 30 сторінок, з яких тільки 20 релевантні пошуковому запиту, при цьому були пропущені 40 додаткових релевантних сторінок, тоді точність становить 20/30 = 2/3, а повнота 20/60 = 1/3. В цьому випадку, точність показує «наскільки корисні результати пошуку», а повнота показує наскільки вони є повними.
Нехай комп'ютерна програма для розпізнавання собак на фотографіях виявила 8 собак на зображенні, що містить 10 котів та 12 собак (власне релевантних елементів). Серед 8 ідентифікованих як собаки 5 і справді є собаками (істинно позитивні), тоді як інші 3 є котами (хибно позитивні). 4 собаки було пропущено (хибно негативні), а 6 котів було виключено правильно (істинно негативні). Влучність цієї програми становить 5/8 (істинно позитивні / всі позитивні), тоді як повнота&nbsp;— 5/12 (істинно позитивні / релевантні елементи). Коли [[пошуковий рушій]] повертає 30 сторінок, лише 20 з яких є релевантними, в той же час виявляючись нездатним повернути 40 додаткових релевантних сторінок, його влучність становить 20/30 = 2/3, тоді як повнота 20/60 = 1/3. Тож, у цьому випадку, влучність показує, «наскільки правильними є результати», тоді як повнота «наскільки повними є результати».


В [[Статистика|статистиці]], якщо [[нульова гіпотеза]] полягає в тому, що всі елементи є ''несуттєвими'' (коли гіпотеза приймається або відкидається на підставі кількості відібраних у порівнянні з розміром вибірки), відсутність [[Помилки першого і другого роду|помилок першого і другого роду]] відповідає максимальній точності (немає помилкових спрацьовувань) і максимальній повноті (немає помилково не відібраних). У наведеному вище прикладі розпізнавання буде 8 5 = 3 помилки I типу і 12 − 5 = 7 помилок II типу. Точність може розглядатися як показник точності або ''якості'', а повнота є мірою ''кількості''.
Якщо застосовувати підхід перевірки гіпотез зі [[Статистика|статистики]], в якому, в цьому випадку, [[нульова гіпотеза]] полягає в тім, що заданий зразок є ''нерелевантним'', тобто, не собакою, то відсутність [[Помилки першого і другого роду|помилок першого і другого роду]] (тобто, ідеальні {{нп|чутливість і специфічність|||Sensitivity and specificity}} у 100&nbsp;% кожна) відповідає, відповідно, ідеальній влучності (без хибно позитивних) та ідеальній повноті (без хибно негативних).


Загальніше, повнота є просто доповненням рівня помилок II роду, тобто, одиниця мінус рівень помилок II роду. Влучність пов'язана з рівнем помилок I роду, але дещо складнішим чином, оскільки вона також залежить від апріорного розподілу спостерігання релевантного, чи нерелевантного зразка.
В простих термінах, висока точність означає, що алгоритм повертає більше релевантних результатів, ніж несуттєвих, в той час як висока повнота, означає, що алгоритм повертає більшу кількість релевантних результатів.


Наведений вище приклад із котами та собаками містив 8 &minus; 5 = 3 помилки I роду, що давало рівень помилок I роду 3/10, та 12 &minus; 5 = 7 помилок II роду, що давало рівень помилок II роду 7/12. Влучність можливо розглядати як рівень якості, тоді як повноту&nbsp;— як рівень кількості. Вища влучність означає, що алгоритм видає більше релевантних зразків, ніж нерелевантних, а висока повнота означає, що алгоритм видає більшість із релевантних результатів (незалежно від того, чи він також видає й нерелевантні).
== Визначення (інформаційний пошук) ==
В [[Інформаційний пошук|інформаційно-пошуковому]] контексті, точності та повнота визначаються в термінах множини ''знайдених документів'' (наприклад, список документів генерується запитом [[Пошукова система|веб-пошуку]]) і множини ''[[Релевантність|релевантних]] документів'' (наприклад, список всіх документів у інтернеті, які мають відношення до певної теми). Ці міри були визначені у праці {{harvtxt|Perry|Kent|Berry|1955}}.


=== Точність ===
== Введення ==
В області [[Інформаційний пошук|інформаційного пошуку]], точність ({{lang-en|'''precision'''}})&nbsp;— це частка знайдених документів, які мають [[Релевантність|відповідні]] до запиту:


В [[Інформаційний пошук|інформаційному пошуку]] зразками є документи, а задачею є повернути набір релевантних документів для заданої умови пошуку. Повнота є ''числом релевантних документів'', знайдених пошуком, ''поділеним на загальне число релевантних документів, які існують'', тоді як влучність є ''числом релевантних документів'', знайдених пошуком, ''поділеним на загальне число знайдених документів'', які знайшов цей пошук.
<math display="block"> \text{точність}=\frac{|\{\text{релевантні документи}\}\cap\{\text{знайдені документи}\}|}{|\{\text{знайдені документи}\}|} </math>


В задачі [[Класифікація (машинне навчання)|класифікації]], влучністю для певного класу є ''число істинно позитивних'' (тобто, число зразків, правильно відмічених як належні до позитивного класу), ''поділене на загальне число елементів, відмічених як належні до позитивного класу'' (тобто, суму істинно позитивних та [[Помилки першого і другого роду|хибно позитивних]], що є зразками, неправильно відміченими як належні до позитивного класу). Повноту в цьому контексті визначено як ''число істинно позитивних, поділене на загальне число елементів, що насправді належать до позитивного класу'' (тобто, суму істинно позитивних та [[Помилки першого і другого роду|хибно негативних]], що є зразками, як не було відмічено як належні до позитивного класу, але повинно було бути відмічено).
Тобто, для текстового пошуку у множині документів, точність&nbsp;— число правильних результатів розділене на кількість всіх повернених результатів.


В інформаційному пошуку ідеальна оцінка влучності в 1,0 означає, що кожен з результатів, знайдених пошуком, був релевантним (але не каже нічого про те, чи всі релевантні документи було знайдено), тоді як ідеальна оцінка повноти в 1,0 означає, що цим пошуком було знайдено всі релевантні документи (але не каже нічого про те, як багато було знайдено також і нерелевантних документів).
Точності бере до уваги всі знайдені документи, але можна зробити усічену рейтингову оцінку, якщо розглянути тільки верхню частину результати, які повертаються пошуковою системою. Ця міра називається ''N-точністю''.


В задачі класифікації оцінка влучності в 1,0 для класу ''C'' означає, що кожен зі зразків, відмічений як належний до класу ''C'', й насправді належить до класу ''C'' (але не каже нічого про число зразків з класу ''C'', які не було правильно відмічено), тоді як повнота в 1,0 означає, що кожен зі зразків з класу ''C'' було відмічено як належний до класу ''C'' (але не каже нічого про те, скільки зразків з інших класів було неправильно відмічено як належні до класу ''C'').
Точність використовується разом з повнотою&nbsp;— відсотком ''всіх'' релевантних документів, які отримані в результаті пошуку. Ці дві міри іноді використовуються разом у [[F-міра|F1-оцінці]] (або F-мірі), щоб отримати тільки одну оцінку якості роботи системи.


Між влучністю й повнотою часто існує обернена залежність, коли можливо підвищити одну ціною зниження іншої. Наочним прикладом цього компромісу є нейрохірургія. Розгляньмо нейрохірурга, який видаляє ракову пухлину з мозку пацієнта. Нейрохірургові потрібно видалити всі клітини пухлини, оскільки залишені ракові клітини відродять пухлину. І навпаки, нейрохірург мусить не видаляти здорові клітини мозку, оскільки це призведе до порушень функцій мозку пацієнта. Нейрохірург може бути більш розмашистим щодо області мозку, яку він видаляє, щоби забезпечити видалення всіх ракових клітин. Це рішення підвищує повноту, але знижує влучність. З іншого боку, нейрохірург може бути консервативнішим щодо мозку, який він видаляє, щоби забезпечити вилучення лише ракових клітин. Це рішення підвищує влучність, але знижує повноту. Тобто, вища повнота підвищує шанси видалення здорових клітин (негативний результат), і підвищує шанси видалення всіх ракових клітин (позитивний результат). Вища влучність знижує шанси вилучення здорових клітин (позитивний результат), але також знижує шанси видалення всіх ракових клітин (негативний результат).
Зверніть увагу, що значення і вживання «точність» в області інформаційного пошуку відрізняється від визначення [[Точність|точністю]] в інших галузях науки і техніки.

Зазвичай оцінки влучності та повноти не обговорюють окремо. Натомість, або значення однієї міри порівнюють за фіксованого рівня іншої міри (наприклад, ''влучність на рівні повноти 0,75''), або поєднують обидві в єдину міру. Прикладами мір, що є поєднаннями влучності та повноти, є [[F-міра|''F''-міра]] (зважене [[середнє гармонійне]] влучності та повноти) та {{нп|коефіцієнт кореляції Меттьюза|||Matthews correlation coefficient}}, що є [[Середнє геометричне|середнім геометричним]] скоригованих на шанси варіантів: [[Коефіцієнт регресії|коефіцієнтів регресії]] {{нп|Поінформованість|поінформованості||Informedness}} (Δ''p''<nowiki/>') та {{нп|Маркованість|маркованості||Markedness}} (Δ''p'').<ref name="Powers2011">{{cite journal |first=David M W |last=Powers |date=2011 |title=Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |url=http://www.flinders.edu.au/science_engineering/fms/School-CSEM/publications/tech_reps-research_artfcts/TRRA_2007.pdf |archive-url=https://web.archive.org/web/20191114213255/https://www.flinders.edu.au/science_engineering/fms/School-CSEM/publications/tech_reps-research_artfcts/TRRA_2007.pdf |archive-date=2019-11-14}} {{ref-en}}</ref><ref>{{cite journal |first1=P. |last1=Perruchet |first2=R. |last2=Peereman |year=2004 |title=The exploitation of distributional information in syllable processing |journal=J. Neurolinguistics |volume=17 |issue=2–3 |pages=97–119 |doi=10.1016/s0911-6044(03)00059-9|s2cid=17104364 }} {{ref-en}}</ref> {{нп|Точність (бінарна класифікація)|Точність||Accuracy (binary classification)}} є зваженим (на зміщення) середнім арифметичним влучності та оберненої влучності, так само як і зваженим (на поширеність) середнім арифметичним повноти та оберненої повноти.<ref name="Powers2011"/> Обернена влучність та обернена повнота є просто влучністю та повнотою оберненої задачі, де позитивні та негативні мітки поміняно місцями (як для справжніх класів, так і для передбачуваних міток). Повноту та обернену повноту, або, рівнозначно, істиннопозитивний та хибнопозитивний рівні часто відкладають один проти одного як [[Крива РХП|криві РХП]], забезпечуючи принциповий механізм дослідження компромісів робочої точки. Поза інформаційним пошуком застосування повноти, влучності та ''F''-міри вважають хибним, оскільки вони ігнорують істинно негативну комірку [[Таблиця невідповідностей|таблиці невідповідностей]], й ними легко маніпулювати, зміщуючи передбачення.<ref name="Powers2011"/> Першу проблему «розв'язують» застосуванням {{нп|Точність (бінарна класифікація)|точності||Accuracy (binary classification)}}, а другу проблему «розв'язують» знижуванням складової шансу та перенормовуванням до {{нп|Каппа Коена|каппи Коена||Cohen's kappa}}, але це більше не дає можливості досліджувати компроміси графічно. Проте, {{нп|поінформованість|||Informedness}} та {{нп|маркованість|||Markedness}} є каппа-подібними перенормуваннями повноти та влучності,<ref>{{cite conference |first=David M. W. |last=Powers |date=2012 |title=The Problem with Kappa |booktitle=Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop|url=https://www.aclweb.org/anthology/E12-1035}} {{ref-en}}</ref> а їхній середній геометричний {{нп|коефіцієнт кореляції Меттьюза|||Matthews correlation coefficient}} відтак виступає незміщеною ''F''-мірою.

== Визначення (в контексті інформаційного пошуку) ==

В контексті [[Інформаційний пошук|інформаційного пошуку]] визначення влучності та повноти подають в термінах множини ''знайдених документів'' (наприклад, переліку документів, виробленого [[Рушій вебпошуку|рушієм вебпошуку]] для якогось запиту), та множини ''релевантних документів'' (наприклад, переліку всіх документів в Інтернеті, що є релевантними для певного предмету), пор. [[релевантність]].<ref>* {{cite journal |title=Machine literature searching VIII. Operational criteria for designing information retrieval systems |journal=American Documentation |volume=6 |issue=2 |pages=93 |year=1955 |doi=10.1002/asi.5090060209|last1=Kent |first1=Allen |last2=Berry |first2=Madeline M. |last3=Luehrs, Jr. |first3=Fred U. |last4=Perry |first4=J.W. }} {{ref-en}}</ref>

=== Влучність ===

В галузі [[Інформаційний пошук|інформаційного пошуку]], влучність є часткою знайдених документів, що є [[Релевантність (інформаційний пошук)|релевантними]] запитові:

: влучність = {{ндріб|{{!}} {релевантні документи} ∩ {знайдені документи} {{!}}|{{!}} {знайдені документи} {{!}}}}

Наприклад, для текстового пошуку на множині документів, влучність є числом правильних результатів, поділеним на число всіх повернених результатів.

Влучність бере до уваги всі знайдені документи, але її також можливо оцінювати на заданому рівні відсікання, враховуючи лише розташовані найвище результати, що повертає система. Таку міру називають «''N''-влучністю» ({{lang-en|precision at n, P@n}}).

Влучність використовують разом із повнотою, відсотком ''всіх'' релевантних документів, який повертає пошук. Ці дві міри іноді використовують разом в [[Оцінка F1|оцінці ''F''<sub>1</sub>]] (або ''F''-мірі), щоби забезпечити єдине вимірювання для системи.

Зауважте, що значення та вживання терміну «влучність» ({{lang-en|precision}}) в області інформаційного пошуку відрізняється від визначення [[Точність та прецизійність|точності та прецизійності]] ({{lang-en|accuracy and precision}}) в межах інших галузей науки та технології.


=== Повнота ===
=== Повнота ===
В інформаційному пошуку, повнота ({{lang-en|'''recall'''}})&nbsp;— це частка релевантних документів, які успішно знайдені системою пошуку відносно загальної кількості релевантних документів.


В інформаційному пошуку повнота є часткою релевантних документів, яку вдається успішно знайти.
<math display="block"> \text{повнота}=\frac{|\{\text{релевантні документи}\}\cap\{\text{знайдені документи}\}|}{|\{\text{релевантні документи}\}|} </math>

: повнота = {{ндріб|{{!}} {релевантні документи} ∩ {знайдені документи} {{!}}|{{!}} {релевантні документи} {{!}}}}

Наприклад, для текстового пошуку на множині документів, повнота є числом правильних результатів, поділеним на число результатів, які мало би бути повернуто.

В бінарній класифікації повноту називають {{нп|Чутливість і специфічність|чутливістю||Sensitivity and specificity}}. Її можливо розглядати як імовірність того, що релевантний документ буде знайдено за запитом.

Досягти повноти 100&nbsp;% тривіально, якщо повертати у відповідь на запит всі документи. Отже, повнота сама по собі не є достатньою, й потрібно також вимірювати й число нерелевантних документів, наприклад, обчислюючи також і влучність.

== Визначення (в контексті класифікації) ==

Для задач класифікації, терміни ''істинно позитивні'', ''істинно негативні'', ''хибно позитивні'' та ''хибно негативні'' (див. визначення в [[Помилки першого і другого роду|помилках першого і другого роду]]) є порівняннями результатів тестованого класифікатора з надійними зовнішніми судженнями. Терміни ''позитивні'' та ''негативні'' стосуються передбачень класифікатора (які іноді називають ''очікуванням''), а терміни ''істинно'' та ''хибно'' стосуються того, чи це передбачення відповідає зовнішньому судженню (іноді відомому як ''спостереження'').

Визначмо експеримент із П позитивними зразками та Н негативними зразками для якоїсь умови. Ці чотири результати може бути виражено [[Таблиця спряженості|таблицею спряженості]] або [[Матриця невідповідностей|матрицею невідповідностей]] 2×2 наступним чином:

{{Діаграма діагностичного дослідження}}
{{Терміни матриці невідповідностей}}

<!--
{| border="0" align="center" style="text-align: center; background: #FFFFFF;"
|+
!
! colspan="2" style="background: #ddffdd;"|справжній клас <br/> (спостереження)
|-
!
|-----
|+
! rowspan="2" style="background: #ffdddd;"|прогнозований клас <br/> (очікування)
| '''ІП''' <br> (істинно позитивний) <br/> правильний результат
| '''ХП''' <br> (хибно позитивний) <br/> неочікуваний результат
|-bgcolor="#EFEFEF"
| '''ХН''' <br> (хибно негативний) <br/> пропущений результат
| '''ІН''' <br> (істинно негативний) <br/> правильна відсутність результату
|+
|}

-->

Влучність та повноту тоді визначають як<ref name="OlsonDelen">Olson, David L.; and Delen, Dursun (2008); ''Advanced Data Mining Techniques'', Springer, 1st edition (February 1, 2008), page 138, {{ISBN|3-540-76916-1}} {{ref-en}}</ref>

: Влучність = {{ндріб|ІП|ІП + ХП}}

: Повнота = {{ндріб|ІП|ІП + ХН}}

Повноту в цьому контексті також називають істиннопозитивним рівнем, або {{нп|Чутливість і специфічність|чутливістю||Sensitivity and specificity}}, а влучність також називають {{нп|Прогностична значущість позитивних результатів|прогностичною значущістю позитивних результатів||Positive predictive value}} (ПЗ+). До інших пов'язаних мір, які використовують у класифікації, належать істиннонегативний рівень, та {{нп|Точність (бінарна класифікація)|точність||Accuracy (binary classification)}}. Істиннонегативний рівень також називають {{нп|Діагностична специфічність|специфічністю||Specificity (tests)}}.

: Істиннонегативний рівень = {{ндріб|ІН|ІН + ХП}}

== Незбалансовані дані ==

: Точність = {{ндріб|ІП + ІН|ІП + ІН + ХП + ХН}}

Для незбалансованих наборів даних точність може бути оманливою метрикою. Розгляньмо вибірку з 95 негативними та 5 позитивними значеннями. Класифікування всіх значень як негативних у цьому випадку дає оцінку точності 0,95. Існує багато метрик, які не страждають на цю проблему. Наприклад, збалансована точність (ЗТ, {{lang-en|balanced accuracy, bACC}})<ref>{{Cite journal|last=Mower|first=Jeffrey P.|date=2005-04-12|title=PREP-Mt: predictive RNA editor for plant mitochondrial genes|journal=BMC Bioinformatics|volume=6|pages=96|doi=10.1186/1471-2105-6-96|issn=1471-2105|pmc=1087475|pmid=15826309}} {{ref-en}}</ref> унормовує істинно позитивні та істинно негативні передбачення числом позитивних та негативних зразків відповідно, й ділить їхню суму навпіл:

: Збалансована точність = {{ндріб|ІПP + ХПР|2}}

Для попереднього прикладу (95 негативних та 5 позитивних зразків), класифікування всіх як негативних дає оцінку збалансованої точності 0,5 (максимальною оцінкою ЗТ є одиниця), що є рівнозначним математичному сподіванню випадкового вгадування у збалансованому наборі даних. Збалансована точність може слугувати загальною метрикою продуктивності моделі, незалежно від того, чи є справжні мітки в даних незбалансованими, чи ні, вважаючи втрати на ХН такими же, як і на ХП.

Іншою метрикою є рівень позитивного прогнозованого стану (РППС, {{lang-en|predicted positive condition rate, PPCR}}), що визначає відсоток від загальної сукупності, який буде промарковано. Наприклад, для пошукового рушія, що повертає 30 результатів (знайдених документів) з 1&nbsp;000&nbsp;000 документів, РППС становить 0,003&nbsp;%.

: Рівень позитивного прогнозованого стану = {{ндріб|ІП + ХП|ІП + ХП + ІН + ХН}}

Згідно Сайто та Ремсмаєра, при оцінюванні бінарних класифікаторів на незбалансованих даних графіки влучності—повноти є інформативнішими за графіки [[Крива РХП|РХП]]. За таких сценаріїв графіки РХП можуть бути візуально оманливими для висновків про надійність виконання класифікації.<ref>{{Cite journal|last1=Saito|first1=Takaya|last2=Rehmsmeier|first2=Marc|date=2015-03-04|editor-last=Brock|editor-first=Guy|title=The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets|journal=PLOS ONE|language=en|volume=10|issue=3|pages=e0118432|doi=10.1371/journal.pone.0118432|issn=1932-6203|pmc=4349800|pmid=25738806|lay-url=https://acutecaretesting.org/en/articles/precision-recall-curves-what-are-they-and-how-are-they-used|lay-date=March 2017|bibcode=2015PLoSO..1018432S}} {{ref-en}}</ref>

== Імовірнісна інтерпретація ==

Влучність і повноту також можливо інтерпретувати не як відношення, а як оцінки ймовірностей:<ref>Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, [http://cs-people.bu.edu/fcakir/papers/fastap_cvpr2019.pdf ''Deep Metric Learning to Rank''], In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. {{ref-en}}</ref>

* Влучність є оцінкою ймовірності того, що документ, випадково вибраний з пулу знайдених документів, є релевантним.
* Повнота є оцінкою ймовірності того, що документ, випадково вибраний з пулу релевантних документів, буде знайдено.

Іншою інтерпретацією є те, що влучність є усередненою ймовірністю релевантного знаходження, а повнота є усередненою ймовірністю повного знаходження, усереднені над багатократними запитами пошуку.

== ''F''-міра ==
{{main article|Міра F1}}

Мірою, яка поєднує влучність та повноту, є [[середнє гармонійне]] влучності та повноти, традиційна ''F''-міра, або збалансована ''F''-оцінка:

: ''F'' = 2 · {{ндріб|влучність · повнота|влучність + повнота}}

Ця міра є приблизно усередненням цих двох, коли вони є близькими, а загальніше є [[Середнє гармонійне|середнім гармонійним]], що, у випадку двох чисел, збігається з квадратом [[Середнє геометричне|середнього геометричного]], поділеним на [[середнє арифметичне]]. Існує декілька причин, через які ''F''-оцінку може бути критиковано за певних обставин через її зсув як оцінної метрики.<ref name="Powers2011" /> Вона є також відомою як міра ''F''<sub>1</sub>, оскільки повнота та чутливість є зваженими рівномірно.

Вона є окремим випадком загальної міри ''F<sub>β</sub>'' (для невід'ємних дійсних значень ''β''):

: ''F<sub>β</sub>'' = (1 + ''β''<sup>2</sup>) · {{ндріб|влучність · повнота|''β''<sup>2</sup> · влучність + повнота}}

Двома іншими широко вживаними мірами ''F'' є міра ''F''<sub>2</sub>, яка приділяє повноті більшої ваги, аніж влучності, та міра ''F''<sub>0,5</sub>, що робить більший акцент на влучності, аніж на повноті.

''F''-міру було виведено ван Рійсберґеном (1979) таким чином, що ''F<sub>β</sub>'' «вимірює ефективність пошуку з урахуванням користувача, який надає в ''β'' разів вищої важливості повноті, ніж влучності». Вона ґрунтується на мірі ефективності ван Рійсберґена ''E<sub>α</sub>'' = 1 &minus; {{ндріб|1|{{ндріб|''α''|В}} + {{ндріб|1&minus;''α''|П}}}}, де другий член є зваженим середнім гармонійним влучності та повноти з вагами (''α'', 1 &minus; ''α''). Вони є взаємопов'язаними як ''F<sub>β</sub>'' = 1 &minus; ''E<sub>α</sub>'', де ''α'' = {{ндріб|1|1 + ''β''<sup>2</sup>}}.


== Обмеження як цілі ==
Тобто, для текстового пошуку у множині документів, повнота&nbsp;— це кількість правильних результатів, поділених на кількість результатів, які повинні була повернути пошукова система.


Існують інші параметри та стратегії міри продуктивності системи інформаційного пошуку, такі як площа під [[Крива РХП|кривою РХП]] ([[ППК РХП|ППК]], {{lang-en|AUC}}).<ref>Zygmunt Zając. What you wanted to know about AUC. http://fastml.com/what-you-wanted-to-know-about-auc/ {{ref-en}}</ref>
У [[Бінарна класифікація|бінарній класифікації]], повнота, називається {{Нп|Чутливість і специфічність|чутливістю||Sensitivity and specificity}}. Її можна розглядати як ймовірність того, що відповідний документ отримано з допомогою запиту.


== Див. також ==
Дуже легко домогтися повноти 100%, якщо повертати всі документи у відповідь на будь-який запит. Тому однієї повноти недостатньо для вимірювання кількості не релевантних документів, а слід використовувати ще якусь міру, наприклад, точність.
* {{нп|Коефіцієнт невизначеності|||Uncertainty coefficient}}, відомий також як вправність ({{lang-en|proficiency}})
* {{нп|Чутливість і специфічність|||Sensitivity and specificity}}


== Джерела ==
== Джерела ==
{{Reflist}}
{{refbegin}}
{{refbegin}}
* Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). ''Modern Information Retrieval''. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. {{ISBN|0-201-39829-X}}
* Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). ''Modern Information Retrieval''. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. {{ISBN|0-201-39829-X}} {{ref-en}}
* Hjørland, Birger (2010); ''The foundation of the concept of relevance'', Journal of the American Society for Information Science and Technology, 61(2), 217—237
* Hjørland, Birger (2010); ''The foundation of the concept of relevance'', Journal of the American Society for Information Science and Technology, 61(2), 217—237 {{ref-en}}
* {{Нп|Макхоул Джон|Makhoul, John||John Makhoul}}; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.4637 ''Performance measures for information extraction''], in ''Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999''
* {{Нп|Джон Макгоул|Makhoul, John||John Makhoul}}; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.4637 ''Performance measures for information extraction''], in ''Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999'' {{ref-en}}
* van Rijsbergen, Cornelis Joost «Keith» (1979); ''Information Retrieval'', London, GB; Boston, MA: Butterworth, 2nd Edition, {{ISBN|0-408-70929-4}} {{ref-en}}
* {{cite journal |title=Machine literature searching X. Machine language; factors underlying its design and development |journal=American Documentation |volume=6 |issue=4 |pages=242 |year=1955 |doi=10.1002/asi.5090060411|last1=Perry |first1=James W. |last2=Kent |first2=Allen |last3=Berry |first3=Madeline M. }}
* van Rijsbergen, Cornelis Joost «Keith» (1979); ''Information Retrieval'', London, GB; Boston, MA: Butterworth, 2nd Edition, {{ISBN|0-408-70929-4}}
{{refend}}
{{refend}}


== Посилання ==
== Посилання ==
* [http://www.dcs.gla.ac.uk/Keith/Preface.html Інформаційний пошук&nbsp;— книга C. J. van Rijsbergen (1979)]
* [http://www.dcs.gla.ac.uk/Keith/Preface.html Інформаційний пошук&nbsp;— книга К.&nbsp;Й.&nbsp;ван&nbsp;Рійсберґена (1979)] {{ref-en}}
* [http://www.text-analytics101.com/2014/10/computing-precision-and-recall-for.html Обчислювання точності та повноти у задачі багатокласової класифікації]
* [http://www.text-analytics101.com/2014/10/computing-precision-and-recall-for.html Обчислювання точності та повноти у задачі багатокласової класифікації] {{ref-en}}


[[Категорія:Біоінформатика]]
[[Категорія:Біоінформатика]]

Версія за 08:17, 10 жовтня 2020

Влучність і повнота

В розпізнаванні образів, інформаційному пошуку та класифікації, влу́чність[1] (англ. precision, яку також називають прогностичною значущістю позитивних результатів[2]) є часткою релевантних зразків серед знайдених, тоді як повнота́[1] (англ. recall, відома також як чутливість) є часткою загального числа позитивних зразків, яку було дійсно знайдено. Як влучність, так і повнота, відтак ґрунтуються на розумінні та мірі релевантності. Влучність не слід плутати з точністю (англ. accuracy), яка є часткою правильно спрогнозованих результатів, як позитивних, так і негативних.[3] Влучність стосується лише позитивних результатів.

Нехай комп'ютерна програма для розпізнавання собак на фотографіях виявила 8 собак на зображенні, що містить 10 котів та 12 собак (власне релевантних елементів). Серед 8 ідентифікованих як собаки 5 і справді є собаками (істинно позитивні), тоді як інші 3 є котами (хибно позитивні). 4 собаки було пропущено (хибно негативні), а 6 котів було виключено правильно (істинно негативні). Влучність цієї програми становить 5/8 (істинно позитивні / всі позитивні), тоді як повнота — 5/12 (істинно позитивні / релевантні елементи). Коли пошуковий рушій повертає 30 сторінок, лише 20 з яких є релевантними, в той же час виявляючись нездатним повернути 40 додаткових релевантних сторінок, його влучність становить 20/30 = 2/3, тоді як повнота — 20/60 = 1/3. Тож, у цьому випадку, влучність показує, «наскільки правильними є результати», тоді як повнота — «наскільки повними є результати».

Якщо застосовувати підхід перевірки гіпотез зі статистики, в якому, в цьому випадку, нульова гіпотеза полягає в тім, що заданий зразок є нерелевантним, тобто, не собакою, то відсутність помилок першого і другого роду (тобто, ідеальні чутливість і специфічність у 100 % кожна) відповідає, відповідно, ідеальній влучності (без хибно позитивних) та ідеальній повноті (без хибно негативних).

Загальніше, повнота є просто доповненням рівня помилок II роду, тобто, одиниця мінус рівень помилок II роду. Влучність пов'язана з рівнем помилок I роду, але дещо складнішим чином, оскільки вона також залежить від апріорного розподілу спостерігання релевантного, чи нерелевантного зразка.

Наведений вище приклад із котами та собаками містив 8 − 5 = 3 помилки I роду, що давало рівень помилок I роду 3/10, та 12 − 5 = 7 помилок II роду, що давало рівень помилок II роду 7/12. Влучність можливо розглядати як рівень якості, тоді як повноту — як рівень кількості. Вища влучність означає, що алгоритм видає більше релевантних зразків, ніж нерелевантних, а висока повнота означає, що алгоритм видає більшість із релевантних результатів (незалежно від того, чи він також видає й нерелевантні).

Введення

В інформаційному пошуку зразками є документи, а задачею є повернути набір релевантних документів для заданої умови пошуку. Повнота є числом релевантних документів, знайдених пошуком, поділеним на загальне число релевантних документів, які існують, тоді як влучність є числом релевантних документів, знайдених пошуком, поділеним на загальне число знайдених документів, які знайшов цей пошук.

В задачі класифікації, влучністю для певного класу є число істинно позитивних (тобто, число зразків, правильно відмічених як належні до позитивного класу), поділене на загальне число елементів, відмічених як належні до позитивного класу (тобто, суму істинно позитивних та хибно позитивних, що є зразками, неправильно відміченими як належні до позитивного класу). Повноту в цьому контексті визначено як число істинно позитивних, поділене на загальне число елементів, що насправді належать до позитивного класу (тобто, суму істинно позитивних та хибно негативних, що є зразками, як не було відмічено як належні до позитивного класу, але повинно було бути відмічено).

В інформаційному пошуку ідеальна оцінка влучності в 1,0 означає, що кожен з результатів, знайдених пошуком, був релевантним (але не каже нічого про те, чи всі релевантні документи було знайдено), тоді як ідеальна оцінка повноти в 1,0 означає, що цим пошуком було знайдено всі релевантні документи (але не каже нічого про те, як багато було знайдено також і нерелевантних документів).

В задачі класифікації оцінка влучності в 1,0 для класу C означає, що кожен зі зразків, відмічений як належний до класу C, й насправді належить до класу C (але не каже нічого про число зразків з класу C, які не було правильно відмічено), тоді як повнота в 1,0 означає, що кожен зі зразків з класу C було відмічено як належний до класу C (але не каже нічого про те, скільки зразків з інших класів було неправильно відмічено як належні до класу C).

Між влучністю й повнотою часто існує обернена залежність, коли можливо підвищити одну ціною зниження іншої. Наочним прикладом цього компромісу є нейрохірургія. Розгляньмо нейрохірурга, який видаляє ракову пухлину з мозку пацієнта. Нейрохірургові потрібно видалити всі клітини пухлини, оскільки залишені ракові клітини відродять пухлину. І навпаки, нейрохірург мусить не видаляти здорові клітини мозку, оскільки це призведе до порушень функцій мозку пацієнта. Нейрохірург може бути більш розмашистим щодо області мозку, яку він видаляє, щоби забезпечити видалення всіх ракових клітин. Це рішення підвищує повноту, але знижує влучність. З іншого боку, нейрохірург може бути консервативнішим щодо мозку, який він видаляє, щоби забезпечити вилучення лише ракових клітин. Це рішення підвищує влучність, але знижує повноту. Тобто, вища повнота підвищує шанси видалення здорових клітин (негативний результат), і підвищує шанси видалення всіх ракових клітин (позитивний результат). Вища влучність знижує шанси вилучення здорових клітин (позитивний результат), але також знижує шанси видалення всіх ракових клітин (негативний результат).

Зазвичай оцінки влучності та повноти не обговорюють окремо. Натомість, або значення однієї міри порівнюють за фіксованого рівня іншої міри (наприклад, влучність на рівні повноти 0,75), або поєднують обидві в єдину міру. Прикладами мір, що є поєднаннями влучності та повноти, є F-міра (зважене середнє гармонійне влучності та повноти) та коефіцієнт кореляції Меттьюза[en], що є середнім геометричним скоригованих на шанси варіантів: коефіцієнтів регресії поінформованості[en]p') та маркованості[en]p).[4][5] Точність є зваженим (на зміщення) середнім арифметичним влучності та оберненої влучності, так само як і зваженим (на поширеність) середнім арифметичним повноти та оберненої повноти.[4] Обернена влучність та обернена повнота є просто влучністю та повнотою оберненої задачі, де позитивні та негативні мітки поміняно місцями (як для справжніх класів, так і для передбачуваних міток). Повноту та обернену повноту, або, рівнозначно, істиннопозитивний та хибнопозитивний рівні часто відкладають один проти одного як криві РХП, забезпечуючи принциповий механізм дослідження компромісів робочої точки. Поза інформаційним пошуком застосування повноти, влучності та F-міри вважають хибним, оскільки вони ігнорують істинно негативну комірку таблиці невідповідностей, й ними легко маніпулювати, зміщуючи передбачення.[4] Першу проблему «розв'язують» застосуванням точності, а другу проблему «розв'язують» знижуванням складової шансу та перенормовуванням до каппи Коена[en], але це більше не дає можливості досліджувати компроміси графічно. Проте, поінформованість[en] та маркованість[en] є каппа-подібними перенормуваннями повноти та влучності,[6] а їхній середній геометричний коефіцієнт кореляції Меттьюза[en] відтак виступає незміщеною F-мірою.

Визначення (в контексті інформаційного пошуку)

В контексті інформаційного пошуку визначення влучності та повноти подають в термінах множини знайдених документів (наприклад, переліку документів, виробленого рушієм вебпошуку для якогось запиту), та множини релевантних документів (наприклад, переліку всіх документів в Інтернеті, що є релевантними для певного предмету), пор. релевантність.[7]

Влучність

В галузі інформаційного пошуку, влучність є часткою знайдених документів, що є релевантними запитові:

влучність = | {релевантні документи} ∩ {знайдені документи} || {знайдені документи} |

Наприклад, для текстового пошуку на множині документів, влучність є числом правильних результатів, поділеним на число всіх повернених результатів.

Влучність бере до уваги всі знайдені документи, але її також можливо оцінювати на заданому рівні відсікання, враховуючи лише розташовані найвище результати, що повертає система. Таку міру називають «N-влучністю» (англ. precision at n, P@n).

Влучність використовують разом із повнотою, відсотком всіх релевантних документів, який повертає пошук. Ці дві міри іноді використовують разом в оцінці F1 (або F-мірі), щоби забезпечити єдине вимірювання для системи.

Зауважте, що значення та вживання терміну «влучність» (англ. precision) в області інформаційного пошуку відрізняється від визначення точності та прецизійності (англ. accuracy and precision) в межах інших галузей науки та технології.

Повнота

В інформаційному пошуку повнота є часткою релевантних документів, яку вдається успішно знайти.

повнота = | {релевантні документи} ∩ {знайдені документи} || {релевантні документи} |

Наприклад, для текстового пошуку на множині документів, повнота є числом правильних результатів, поділеним на число результатів, які мало би бути повернуто.

В бінарній класифікації повноту називають чутливістю. Її можливо розглядати як імовірність того, що релевантний документ буде знайдено за запитом.

Досягти повноти 100 % тривіально, якщо повертати у відповідь на запит всі документи. Отже, повнота сама по собі не є достатньою, й потрібно також вимірювати й число нерелевантних документів, наприклад, обчислюючи також і влучність.

Визначення (в контексті класифікації)

Для задач класифікації, терміни істинно позитивні, істинно негативні, хибно позитивні та хибно негативні (див. визначення в помилках першого і другого роду) є порівняннями результатів тестованого класифікатора з надійними зовнішніми судженнями. Терміни позитивні та негативні стосуються передбачень класифікатора (які іноді називають очікуванням), а терміни істинно та хибно стосуються того, чи це передбачення відповідає зовнішньому судженню (іноді відомому як спостереження).

Визначмо експеримент із П позитивними зразками та Н негативними зразками для якоїсь умови. Ці чотири результати може бути виражено таблицею спряженості або матрицею невідповідностей 2×2 наступним чином:

Справжній стан
загальна сукупність позитивний стан негативний стан поширеність = Σ позитивних станівΣ загальної сукупності точність = Σ істинно позитивних + Σ істинно негативнихΣ загальної сукупності
Прогнозований стан
позитивний
прогнозований стан
істинно позитивний хибно позитивний,
помилка I роду
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивнихΣ позитивних прогнозованих станів рівень хибного виявляння[en] (РХВ) = Σ хибно позитивнихΣ позитивних прогнозованих станів
негативний
прогнозований стан
хибно негативний,
помилка II роду
істинно негативний рівень хибного пропускання (РХП) = Σ хибно негативнихΣ негативних прогнозованих станів прогностична значущість негативного результату (ПЗ-) = Σ істинно негативнихΣ негативних прогнозованих станів
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивнихΣ позитивних станів хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивнихΣ негативних станів відношення правдоподібності позитивного результату (ВП+) = ІПРХПР діагностичне відношення шансів (ДВШ) = ВП+ВП− міра F1 = 2 · влучність · повнотавлучність + повнота
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативнихΣ позитивних станів специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативнихΣ негативних станів відношення правдоподібності негативного результату (ВП-) = ХНРІНР
Термінологія та виведення
з матриці невідповідностей
позитивний стан (П)
число справжніх позитивних випадків у даних
негативний стан (Н)
число справжніх негативних випадків у даних

істинно позитивний (ІП)[8][3]
рівнозначно із влучанням
істинно негативний (ІН)[8][3]
рівнозначно із правильним відхиленням
хибно позитивний (ХП)[8][3]
рівнозначно з хибною тривогою[en], помилка I роду
хибно негативний (ХН)[8][3]
рівнозначно з пропусканням, помилка II роду

чутливість,[3] діагностична чутливість (ДЧ),[8][2] повнота,[1] коефіцієнт влучання[en], або істиннопозитивний рівень (ІПР)
ІПР = ІПП = ІПІП + ХН = 1 - ІНР
діагностична специфічність (ДС),[8][2] вибірність або істиннонегативний рівень (ІНР)
ІНР = ІНН = ІНІН + ХП = 1 - ХПР
влучність[1] або прогностична значущість позитивного результату (ПЗ+)[2]
ПЗ+ = ІПІП + ХП = 1 - РХВ
прогностична значущість негативного результату (ПЗ-)[2]
ПЗ- = ІНІН + ХН = 1 - РХП
коефіцієнт невлучання, або хибнонегативний рівень (ХНР)
ХНР = ХНП = ХНХН + ІП = 1 - ІПР
побічний продукт, або хибнопозитивний рівень (ХПР)
ХПР = ХПН = ХПХП + ІН = 1 - ІНР
рівень хибного виявляння[en] (РХВ)
РХВ = ХПХП + ІП = 1 - ПЗ+
рівень хибного пропускання (РХП)
РХП = ХНХН + ІН = 1 - ПЗ-
поріг поширеності (ПП)
ПП = ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1)
міра загрози (МЗ) або критичний індекс успіху (КІУ)
МЗ = ІПІП + ХН + ХП

точність,[3] діагностична ефективність (ДЕ)[8][2]
ДЕ = ІП + ІНП + Н = ІП + ІНІП + ІН + ХП + ХН
збалансована точність[9] (ЗТ)
ЗТ = ІПР + ХПР2
міра F1[1]
гармонійне середнє влучності та чутливості
F1 = 2 · ПЗ+ · ІПРПЗ+ + ІПР = 2 ІП2 ІП + ХП + ХН
коефіцієнт кореляції Меттьюза[en] (ККМ)
ККМ = ІП · ІН - ХП · ХН(ІП + ХП)(ІП + ХН)(ІН + ХП)(ІН + ХН)
індекс Фаулкса — Меттьюза[en] (ФМ)
ФМ = ІПІП + ХП · ІПІП + ХН = ПЗ+ · ІПР
поінформованість[en], або букмекерська поінформованість (БП)
БП = ІПР + ІНР - 1
маркованість[en] (МК) або Δp
МК = ПЗ+ + ПЗ- - 1

Джерела: Fawcett (2006),[10] Powers (2011),[11] Ting (2011),[12] CAWCR,[13] D. Chicco & G. Jurman (2020) (2020),[14] Tharwat (2018),[15] Смоляр та ін. (2013),[8] Коваль та ін. (2016),[3] Швець (2015),[2] Гущин та Сич (2018),[1] Мірошниченко та Івлієва (2019).[9]


Влучність та повноту тоді визначають як[16]

Влучність = ІПІП + ХП
Повнота = ІПІП + ХН

Повноту в цьому контексті також називають істиннопозитивним рівнем, або чутливістю, а влучність також називають прогностичною значущістю позитивних результатів (ПЗ+). До інших пов'язаних мір, які використовують у класифікації, належать істиннонегативний рівень, та точність. Істиннонегативний рівень також називають специфічністю.

Істиннонегативний рівень = ІНІН + ХП

Незбалансовані дані

Точність = ІП + ІНІП + ІН + ХП + ХН

Для незбалансованих наборів даних точність може бути оманливою метрикою. Розгляньмо вибірку з 95 негативними та 5 позитивними значеннями. Класифікування всіх значень як негативних у цьому випадку дає оцінку точності 0,95. Існує багато метрик, які не страждають на цю проблему. Наприклад, збалансована точність (ЗТ, англ. balanced accuracy, bACC)[17] унормовує істинно позитивні та істинно негативні передбачення числом позитивних та негативних зразків відповідно, й ділить їхню суму навпіл:

Збалансована точність = ІПP + ХПР2

Для попереднього прикладу (95 негативних та 5 позитивних зразків), класифікування всіх як негативних дає оцінку збалансованої точності 0,5 (максимальною оцінкою ЗТ є одиниця), що є рівнозначним математичному сподіванню випадкового вгадування у збалансованому наборі даних. Збалансована точність може слугувати загальною метрикою продуктивності моделі, незалежно від того, чи є справжні мітки в даних незбалансованими, чи ні, вважаючи втрати на ХН такими же, як і на ХП.

Іншою метрикою є рівень позитивного прогнозованого стану (РППС, англ. predicted positive condition rate, PPCR), що визначає відсоток від загальної сукупності, який буде промарковано. Наприклад, для пошукового рушія, що повертає 30 результатів (знайдених документів) з 1 000 000 документів, РППС становить 0,003 %.

Рівень позитивного прогнозованого стану = ІП + ХПІП + ХП + ІН + ХН

Згідно Сайто та Ремсмаєра, при оцінюванні бінарних класифікаторів на незбалансованих даних графіки влучності—повноти є інформативнішими за графіки РХП. За таких сценаріїв графіки РХП можуть бути візуально оманливими для висновків про надійність виконання класифікації.[18]

Імовірнісна інтерпретація

Влучність і повноту також можливо інтерпретувати не як відношення, а як оцінки ймовірностей:[19]

  • Влучність є оцінкою ймовірності того, що документ, випадково вибраний з пулу знайдених документів, є релевантним.
  • Повнота є оцінкою ймовірності того, що документ, випадково вибраний з пулу релевантних документів, буде знайдено.

Іншою інтерпретацією є те, що влучність є усередненою ймовірністю релевантного знаходження, а повнота є усередненою ймовірністю повного знаходження, усереднені над багатократними запитами пошуку.

F-міра

Докладніше: Міра F1

Мірою, яка поєднує влучність та повноту, є середнє гармонійне влучності та повноти, традиційна F-міра, або збалансована F-оцінка:

F = 2 · влучність · повнотавлучність + повнота

Ця міра є приблизно усередненням цих двох, коли вони є близькими, а загальніше є середнім гармонійним, що, у випадку двох чисел, збігається з квадратом середнього геометричного, поділеним на середнє арифметичне. Існує декілька причин, через які F-оцінку може бути критиковано за певних обставин через її зсув як оцінної метрики.[4] Вона є також відомою як міра F1, оскільки повнота та чутливість є зваженими рівномірно.

Вона є окремим випадком загальної міри Fβ (для невід'ємних дійсних значень β):

Fβ = (1 + β2) · влучність · повнотаβ2 · влучність + повнота

Двома іншими широко вживаними мірами F є міра F2, яка приділяє повноті більшої ваги, аніж влучності, та міра F0,5, що робить більший акцент на влучності, аніж на повноті.

F-міру було виведено ван Рійсберґеном (1979) таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності». Вона ґрунтується на мірі ефективності ван Рійсберґена Eα = 1 − 1αВ + 1−αП, де другий член є зваженим середнім гармонійним влучності та повноти з вагами (α, 1 − α). Вони є взаємопов'язаними як Fβ = 1 − Eα, де α = 11 + β2.

Обмеження як цілі

Існують інші параметри та стратегії міри продуктивності системи інформаційного пошуку, такі як площа під кривою РХП (ППК, англ. AUC).[20]

Див. також

Джерела

  1. а б в г д е Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Помилка цитування: Некоректний тег <ref>; назва «ГущинСич2018» визначена кілька разів з різним вмістом
  2. а б в г д е ж Швець У. С. Основні поняття доказової медицини. — 2015. Помилка цитування: Некоректний тег <ref>; назва «Швець2015» визначена кілька разів з різним вмістом
  3. а б в г д е ж и Коваль, С.С.; Макеєв, С.С.; Новiкова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Iнститут нейрохiрургiї iм. акад. А.П. Ромоданова НАМН України». 3 (23). Помилка цитування: Некоректний тег <ref>; назва «Коваль2016» визначена кілька разів з різним вмістом
  4. а б в г Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation (PDF). Journal of Machine Learning Technologies. 2 (1): 37—63. Архів оригіналу (PDF) за 14 листопада 2019. (англ.)
  5. Perruchet, P.; Peereman, R. (2004). The exploitation of distributional information in syllable processing. J. Neurolinguistics. 17 (2–3): 97—119. doi:10.1016/s0911-6044(03)00059-9. S2CID 17104364. (англ.)
  6. Powers, David M. W. (2012). The Problem with Kappa. Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. (англ.)
  7. * Kent, Allen; Berry, Madeline M.; Luehrs, Jr., Fred U.; Perry, J.W. (1955). Machine literature searching VIII. Operational criteria for designing information retrieval systems. American Documentation. 6 (2): 93. doi:10.1002/asi.5090060209. (англ.)
  8. а б в г д е ж и Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).
  9. а б Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.
  10. Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)
  11. Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)
  12. Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)
  13. Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)
  14. Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  15. Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)
  16. Olson, David L.; and Delen, Dursun (2008); Advanced Data Mining Techniques, Springer, 1st edition (February 1, 2008), page 138, ISBN 3-540-76916-1 (англ.)
  17. Mower, Jeffrey P. (12 квітня 2005). PREP-Mt: predictive RNA editor for plant mitochondrial genes. BMC Bioinformatics. 6: 96. doi:10.1186/1471-2105-6-96. ISSN 1471-2105. PMC 1087475. PMID 15826309.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  18. Saito, Takaya; Rehmsmeier, Marc (4 березня 2015). Brock, Guy (ред.). The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLOS ONE (англ.). 10 (3): e0118432. Bibcode:2015PLoSO..1018432S. doi:10.1371/journal.pone.0118432. ISSN 1932-6203. PMC 4349800. PMID 25738806. {{cite journal}}: Проігноровано невідомий параметр |lay-date= (довідка); Проігноровано невідомий параметр |lay-url= (довідка)Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  19. Fatih Cakir, Kun He, Xide Xia, Brian Kulis, Stan Sclaroff, Deep Metric Learning to Rank, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. (англ.)
  20. Zygmunt Zając. What you wanted to know about AUC. http://fastml.com/what-you-wanted-to-know-about-auc/ (англ.)
  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN 0-201-39829-X (англ.)
  • Hjørland, Birger (2010); The foundation of the concept of relevance, Journal of the American Society for Information Science and Technology, 61(2), 217—237 (англ.)
  • Makhoul, John[en]; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); Performance measures for information extraction, in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999 (англ.)
  • van Rijsbergen, Cornelis Joost «Keith» (1979); Information Retrieval, London, GB; Boston, MA: Butterworth, 2nd Edition, ISBN 0-408-70929-4 (англ.)

Посилання