ID3 (алгоритм)

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Можливе дерево рішень, побудоване алгоримом ID3. Атрибути розташовуються у вигляді вузлів за здатністю класифікувати приклади. Значення атрибутів представлені гілками.

ID3 (Iterative Dichotomiser 3) — це алгоритм, розроблений Росом Куінланом[en], який використовується для генерації дерев рішень у машинному навчанні з деякого набору даних.[1] ID3 є попередником алгоритму C4.5 та зазвичай використовується в областях машинного навчання і обробки природної мови.

Алгоритм[ред. | ред. код]

На початку роботи алгоритму будується дерево з початковою множиною у кореневому вузлі. На кожній ітерації алгоритму, він перебирає усі невикористані атрибути множини та обчислює ентропію (або інформаційний приріст[en] ) цих атрибутів. Потім він вибирає атрибут з найменшим значенням ентропії (або найбільшим інформаційним виграшем). Потім проводиться розбиття множини за вибраним атрибутом для отримання підмножин даних. (Наприклад, вузол може бути розбитий на дочірні вузли на підставі підмножин населення, вік яких менше 50, від 50 до 100 і більше 100.) Алгоритм продовжує рекурсивно виконуватись на кожній підмножині, враховуючи лише ті атрибути, які раніше не були вибрані.

Рекурсія на підмножині може зупинитися в одному з таких випадків:

  • Кожен елемент у підмножині належить до одного класу; в цьому випадку вузол перетворюється в листовий вузол і позначається класом прикладів.
  • Більше немає атрибутів для вибору, але приклади ще не належать до одного класу. У цьому випадку вузол стає листовим вузлом і позначається найпоширенішим класом прикладів у підмножині.
  • У підмножині немає прикладів: це трапляється, коли жодного прикладу у батьківській множині не знайдено, щоб відповідати певному значенню вибраного атрибута. Прикладом може бути відсутність особи серед населення віком понад 100 років. Потім створюється листовий вузол, який позначається найпоширенішим класом прикладів у множині батьківського вузла.

Алгоритм будує дерево рішень, де нетермінальні вузли (внутрішні вузли) представляють вибраний атрибут, на якому дані були розділені, а термінальні вузли (листові вузли) — мітку класу кінцевої підмножини цього вузла розгалуження.

Опис[ред. | ред. код]

  1. Обчислити ентропію кожного атрибута набору даних .
  2. Розділити множину на підмножини, використовуючи атрибут, для якого вислідна ентропія після розбиття зведена до мінімуму; або, що еквівалентно, інформаційний приріст є максимальним.
  3. Створити вузол дерева рішень, що містить цей атрибут.
  4. Повторити алгоритм на підмножинах, використовуючи атрибути, що залишилися.

Псевдокод[ред. | ред. код]

ID3 (Приклади, Цільові_Атрибути, Атрибути)
    Створити кореневий вузол для дерева.
    Якщо всі приклади додатні, повернути дерево з міткою = «+».
    Якщо всі приклади від'ємні, повернути дерево з міткою = «-».
    Якщо множина атрибутів порожня, повернути дерево з міткою = найбільш поширене значення цільового атрибута в прикладах.
    Інакше
         ← Атрибут, який найкраще класифікує приклади.
        Встановити значення кореня = .
        Для кожного можливого значення  множини 
            Додати нову гілку під коренем, що відповідає перевірці .
            Нехай  буде підмножиною прикладів зі значенням .             
            Якщо множина  порожня, тоді
                Додати під новою гілкою листовий вузол з міткою = найбільш поширене значення цільового атрибута в прикладах.
            Інакше
                Додати під новою гілкою піддерево ID3 (, Цільові_Атрибути, Атрибути  )
    Повернути корінь

Властивості[ред. | ред. код]

Дерево рішень, побудоване алгоритмом ID3, використовується для визначення відповідності конкретної нуклеотидної пари всередині pre-mRNA послідовності до місця сплайсингу mRNA. Це дерево правильно прогнозує з ймовірністю 95 %.[2]

ID3 не гарантує оптимального рішення. Він може сходитися до локального оптимуму. Він використовує жадібну стратегію, вибираючи локальний кращий атрибут для розбиття множини даних на кожній ітерації. Оптимальність алгоритму може бути покращена шляхом використання пошуку з вертанням під час пошуку оптимального дерева рішень, але це може призвести до погіршення швидкості роботи.

ID3 може перенавчитися. Для уникнення перенавчання варто надавати перевагу меншим деревам рішень замість великих. Цей алгоритм зазвичай будує невеликі дерева, але він не завжди дає найменше дерево рішень.

ID3 важче використовувати на неперервних даних. Якщо значення будь-якого атрибута неперервні, то існує багато місць для розбиття даних за цим атрибутом і пошук найкращого значення для розбиття може зайняти багато часу.

Використання[ред. | ред. код]

Алгоритм ID3 навчається на наборі даних для створення дерева рішень, яке зберігається в пам'яті. Під час виконання[en], це дерево рішень використовується для класифікації нових тестових даних (векторів ознак) шляхом обходу дерева рішень, використовуючи ознаки початкових даних, щоб прийти до листового вузла. Тестові дані класифікуються класом термінального вузла.

Метрики[ред. | ред. код]

Ентропія[ред. | ред. код]

Ентропія  — це міра невизначеності в наборі даних (тобто ентропія характеризує набір даних ).

Де

  •  — набір даних, для якого розраховується ентропія.
  •  — множина класів у .
  •  — відношення числа елементів у класі до числа елементів у множині .

Коли , множина відмінно класифікована (тобто всі елементи належать до одного класу).

У алгоритмі ID3 ентропія обчислюється для кожного атрибута. На кожній ітерації атрибут з найменшою ентропією використовується для розбиття множини . У теорії інформації ентропія вимірює кількість інформації, яку очікують отримати при вимірюванні випадкової величини. Постійна величина має нульову ентропію, оскільки її розподіл відомий. Навпаки, рівномірно розподілена випадкова величина (дискретно або неперервно рівномірна) має максимальну ентропію. Тому, чим більше ентропія у вузлі, тим менше ми маємо відомої інформації про класифікацію даних та більший потенціал для поліпшення класифікації на даному етапі дерева.

ID3 — це жадібний евристичний алгоритм, що виконує пошук за першим найкращим збігом для локально оптимальних значень ентропії. Його точність можна поліпшити шляхом попередньої обробки даних.

Інформаційний приріст[ред. | ред. код]

Інформаційний приріст[en]  — це міра різниці ентропії початкової множини та ентропії множини після розбиття за атрибутом .

Де

  •  – підмножини, створені після розбиття множини за атрибутом такі, що .
  •  – ентропія множини .
  •  – ентропія підмножини .
  •  – відношення числа елементів у до числа елементів у множині .

У ID3 для кожного атрибута замість ентропії може бути обчислений інформаційний приріст. Атрибут з найбільшим інформаційним приростом використовується для розбиття множини .

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Quinlan, J. R. 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81–106
  2. Taggart, Allison J; DeSimone, Alec M; Shih, Janice S; Filloux, Madeleine E; Fairbrother, William G (17 червня 2012). Large-scale mapping of branchpoints in human pre-mRNA transcripts in vivo. Nature Structural & Molecular Biology. 19 (7): 719—721. doi:10.1038/nsmb.2327. ISSN 1545-9993. PMC 3465671. PMID 22705790.

Література[ред. | ред. код]

Посилання[ред. | ред. код]