Перейти до вмісту

F-міра

Матеріал з Вікіпедії — вільної енциклопедії.
Влучність та повнота

В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні.[1]

Міра F1 є середнім гармонійним цих влучності та повноти.[2] Загальніша міра Fβ застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.

Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F1 є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).[джерело?]

Етимологія

[ред. | ред. код]

Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992).[3]

Визначення

[ред. | ред. код]

Традиційна F-міра, або збалансована F-оцінка (міра F1) є середнім гармонійним влучності та повноти:

F1 = 2/повнота-1 + влучність-1 = 2 · влучність · повнота/влучність + повнота = ІП/ІП + 1/2(ХП + ХН).

Загальнішою F-мірою, Fβ, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є

Fβ = (1 + β2) · влучність · повнота/(β2 · влучність) + повнота

В термінах помилок першого і другого роду це стає:

Fβ = (1 + β2) · істинно позитивні/(1 + β2) · істинно позитивні + β2 · хибно негативні + хибно позитивні

Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.

F-міру було виведено таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності».[4] Вона ґрунтується на мірі ефективності ван Рійсберґена[en]

E = 1 − (α/в + 1 − α/п)−1

Вони є взаємопов'язаними як Fβ = 1 − E, де α = 1/1 + β2.

Діагностичне дослідження

[ред. | ред. код]

Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».

Справжній стан
загальна сукупність позитивний стан негативний стан поширеність = Σ позитивних станів/Σ загальної сукупності точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності
Прогнозований стан
позитивний
прогнозований стан
істинно позитивний хибно позитивний,
помилка I роду
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів рівень хибного виявляння[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів
негативний
прогнозований стан
хибно негативний,
помилка II роду
істинно негативний рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР діагностичне відношення шансів (ДВШ) = ВП+/ВП− міра F1 = 2 · влучність · повнота/влучність + повнота
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР

Застосування

[ред. | ред. код]

F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів[en].[5] Ранні праці зосереджувалися переважно на мірі F1, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті,[6] тож Fβ помітно у широкому вжитку.

F-міру також використовують у машиннім навчанні.[7] Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу коефіцієнтові кореляції Меттьюза[en] чи каппі Коена[en].[8]

F-міра знайшла широкий вжиток в літературі з обробки природних мов,[9] наприклад, при оцінюванні розпізнавання іменованих сутностей та поділу на слова[en].

Критика

[ред. | ред. код]

Девід Генд[en] та інші критикують широке використання міри F1, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі.[10]

Згідно Давіде Чікко та Джузеппе Журмана, міра F1 є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза[en] (ККМ, англ. Matthews correlation coefficient, MCC).[11]

Девід Пауерс вказав, що F1 ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості[en] та маркованості[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією.[12]

Відмінність від індексу Фаулкса — Меттьюза

[ред. | ред. код]

В той час як F-міра є середнім гармонійним повноти та влучності, індекс Фаулкса — Меттьюза[en] є їхнім середнім геометричним.[13]

Розширення до багатокласової класифікації

[ред. | ред. код]

F-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості.[14]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 4 жовтня 2020.
  2. Alguliyev, R. M.; Aliguliyev, R. M.; Imamverdiyev, Y. N.; Sukhostat, L. V. (2018). An improved ensemble approach for dos attacks detection. Радіоелектроніка, інформатика, управління. 2: 73—82.
  3. Sasaki, Y. (2007). The truth of the F-measure (PDF). Архів оригіналу (PDF) за 23 вересня 2020. Процитовано 4 жовтня 2020. [Архівовано 23 вересня 2020 у Wayback Machine.] (англ.)
  4. Van Rijsbergen, C. J. (1979). Information Retrieval (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)
  5. Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX 10.1.1.127.634. (англ.)
  6. X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID 8482989. (англ.)
  7. Див., наприклад, оцінку [1]. (англ.)
  8. Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)
  9. Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)
  10. Hand, David. A note on using the F-measure for evaluating record linkage algorithms - Dimensions. app.dimensions.ai (англ.). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Архів оригіналу за 9 жовтня 2020. Процитовано 8 грудня 2018. (англ.)
  11. Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  12. Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)
  13. Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics (ahead-of-print). doi:10.1016/j.aci.2018.08.003. (англ.)
  14. J. Opitz; S. Burst (2019). Macro F1 and Macro F1. arXiv:1911.03347 [stat.ML]. (англ.)