Хмарка тегів

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Хмарка тегів з термінами, пов'язаними з Веб 2.0

Хмара тегів (хмара слів, або зважений список, представлене (-ий) візуально) — це візуальне подання списку категорій (або тегів, також званих мітками, ярликами, ключовими словами, тощо.) Зазвичай використовується для опису ключових слів (тегів) на веб-сайтах, або для представлення неформатованого тексту. Ключові слова найчастіше являють собою окремі слова, і важливість кожного ключового слова позначається розміром шрифту або кольором . Таке уявлення зручно для швидкого сприйняття найвідоміших термінів і для розподілу термінів за популярністю щодо один одного . При використанні ключових слів для спрощення навігації по веб-сайтам, терміни забезпечуються гіперпосиланнями на поняття, які маються на увазі під ключовими словами. Тим не менш, хмара не може бути єдиним елементом навігації, а користуватися текстовим пошуком зручніше для пошуку при наявності більш конкретної інформації про шуканий.

Історія[ред.ред. код]

Мовою візуального дизайну, хмара тегів (або хмара слів) це один з видів «зваженого списку», зазвичай воно використовується на географічних картах для відображення відносного розміру міст, за допомогою розміру шрифтів. Одним з перших прикладів зваженого списку англійських ключових слів є список «підсвідомих файлів комп'ютера» в романі Дугласа Коупленда Раби Майкрософта (1995). Список слів німецької мови з'явився в 1992.

Особливу візуальне уявлення та розповсюдження терміна «хмара тегів» почалося в першому десятилітті 21 століття. Як особливість сайтів та блогів ери Веб 2.0, використовувалося, переважно, для візуалізації частотного розподілу ключових слів метаданих, що описують зміст веб-сайту та допомагають в навігації. 

Перші хмари тегів на відомих веб-сайтах з'явилися на сайті сервісу зберігання та розповсюдження цифрових фотографій . Творцем хмар тегів був співзасновник та проектувальник Стюарт Баттерфілд в 2004. Ця реалізація була заснована на книзі Джеймса Фланагана Search Referral Zeitgeist, в якому описується візуалізація посилань на веб-сайт. Приблизно в той же час поширенню хмари тегів сприяли сайти Delicious та Technorati

Перенасичення хмарами тегів та двоякі почуття у відношення їх корисності як помічників у навігації по веб-сайтам привели до помітного зниження їх використання на сайтах-першопрохідників. (Творці згодом «вибачилися» перед веб-спільнотою у своїй промові на премії Webby Awards, де вони просто сказали «вибачте за хмари тегів».) 

Друге покоління розвитку програмного забезпечення виявило широке коло застосування облікової тегів як основних методів візуалізації текстових даних. Також були запропоновані деякі розширення для цих елементів навігації. Наприклад, паралельні хмари тегів[8], sparkClouds, і префіксние хмари тегів.

Типи застосування тегів[ред.ред. код]

Хмара даних показує населення всіх країн світу. Створено з допомогою мови програмування R за допомогою пакету хмара слів. Дані отримані з списку, що містить назву країн та кількість жителів. Зверніть увагу, що відносні розміри Китаю та Індії були розділені навпіл.

Існує три основних типи застосування облікової тегів у соціальному програмному забезпеченні, що розрізняються швидше за призначенням, ніж за зовнішнім виглядом:

  • в першому типі є тег для частоти кожного елемента, 
  • в другому типі є глобальні хмари тегів, де частоти агреговані по всім елементам та користувачам, 
  • в третьому типі хмара містить категорії, розмір яких позначає кількість підкатегорій. 

У першому типі хмар тегів розмір являє собою кількість застосувань тега до елементу. Це корисно в якості способу відображення метаданих про предмет, за який скільки-то раз «проголосували», і коли точні дані не передбачені. Прикладом такого застосування є Last.fm (для визначення жанру музики гурту) та LibraryThing (для визначення ключових слів книги). 

У другому типі розмір відповідає числу предметів, до яких був застосований тег, що позначає популярність тега. Приклади цього типу хмар тегів можна знайти на сайті сервісу зберігання та розповсюдження цифрових фотографій Flickr, RSS-агрегатора Technorati та ввівши в пошуковий запит Google DeeperWeb

Категоризація шляхом створення кластера тегів[ред.ред. код]

У третьому типі теги використовуються як спосіб категоризації елементів. Теги представлені в хмарі, де великі теги представляють кількість елементів в цій категорії. 

Є кілька підходів для побудови кластера тегів замість хмари тегів, наприклад, застосовуючи теги спільної зустрічальності в документах. 

Більш загально, то ж саме візуальне уявлення може бути використано для відображення об'єкт не тегів наприклад, хмара тегів або хмари даних. 

Термін хмара ключових слів іноді використовується як термін пошуковий маркетинг, де він позначає групи ключових слів, що належать до деякого веб-сайту. В останні роки хмари тегів стали популярні через свою значущості в пошуковому маркетингу веб-сторінок, поряд з допомогою користувачам в ефективній навігації по сайтах. Хмари тегів, як засоби навігації, дозволяють зв'язати ресурси веб-сайту більш тісно, обхід таких ресурсів пошуковим роботом може поліпшити позицію сайту в результатах видачі пошукової системи. З точки зору користувача інтерфейсу хмари тегів часто використовуються, щоб допомогти користувачеві знайти інформацію в конкретній системі більш швидко, узагальнюючи результати пошуку.

Візуальне уявлення[ред.ред. код]

Облік даних показує зміну ціни на акції. Колір вказує на зростання або падіння ціни, розмір шрифту вказує на процентну зміну.

Хмари тегів зазвичай представлені у вигляді вбудованих HTML елементів. Теги можуть бути розподілені в алфавітному порядку, у випадковому порядку, за вагою, і т. Д. Іноді змінюють інші візуальні властивості, такі як колір, яскравість, або ширина, на додаток до розміру шрифту. Найбільш поширене уявлення у вигляді прямокутника, в якому теги впорядковані за алфавітом та виводяться через підрядник. Вибір розташування тега в рядках відповідає цілям користувача. Іноді перевага віддається семантичної кластеризації тегів (схожі за змістом теги будуть виводитися поруч) . Допускається застосування евристик для зменшення розміру хмари тегів, незалежно від того — виконується кластеризація чи ні.

Хмара даних [ред.ред. код]

Хмара даних — це дані, в яких використовується інший колір і/або розмір шрифту для позначення числових даних. Хмари даних схожі на хмари тегів, але замість підрахунку слів, виводяться такі дані, як густота населення або ціни на ринку цінних паперів

Хмара тексту[ред.ред. код]

Порівняння хмар тексту промови Президента США Д. Буша та Президента США Б. Обамы.

Хмара тексту або хмара слів — це візуалізація частоти слів у тексті у вигляді зваженого списку. Останнім часом ця техніка використовується для візуалізації тематичного контенту політичних промов. 

Хмари словосполучень[ред.ред. код]

Розвиваючи принципи облікової тексту, хмари словосполучень дають більш сфокусований вид тексту або набору текстів. Замість всього тексту, хмара словосполучень фокусується на використанні окремих слів. Отримане хмара містить слова, які часто використовуються в поєднанні з вихідним словом. Ці словосполучення являють частоту, що виділяється розміром шрифту, поряд з силою зв'язку, що виділяється яскравістю. Це дозволяє інтерактивно вивчати мову.

Особливості сприйняття хмар тегів[ред.ред. код]

Хмари тегів вивчалися в кількох дослідженнях на предмет зручності використання. Такий перелік заснований на результатах досліджень компанії Lohmann та ін.:

Розмір тега: великі теги привертають більше уваги, ніж маленькі теги (ефект залежимо від таких властивостей, як: кількість символів, розташування, сусідні теги). 

Перегляд: користувачі зазвичай дивляться хмара, а не читають його повністю. 

Центрування: теги в середині хмари привертають більше уваги, ніж теги, розташовані по краях (ефект обумовлений особливістю розташування тексту в хмарі). 

Позиціонування: верхній лівий квадрант отримує більше уваги, ніж інші (обумовлено читанням ліворуч-направо). 

Дослідження: хмари тегів допомагають знайти специфічні теги (які не виділені великим розміром шрифту).

Створення хмари тегів[ред.ред. код]

Загалом розмір шрифту тега в хмарі тегів обумовлений поширеністю тега. Для хмари слів, наприклад, категорій блогу, частота відповідає кількості записів у блозі, яким присвоєна ця категорія. Для менших частот можна вказати розміри шрифту безпосередньо, від едінінци до максимально використовуваного розміру шрифту. Для великих частот необхідно провести масштабування. Наприклад, використовуючи лінійне перетворення, вага t_i тега масштабується за шкалою множників від of 1 до f, де t_{min} і t_{max} визначають діапазон дозволених ваг.

Набір слів зі списку 1000 вибраних статей Вікіпедії, впорядкований за кількістю переглядів, доступний в галереї Wordle gallery.[1]

s_i = \left \lceil \frac{f_{\mathrm{max}}\cdot(t_i - t_{\mathrm{min}})}{t_{\mathrm{max}}-t_{\mathrm{min}}} \right \rceil для t_i > t_{\mathrm{min}}; иначе s_{i}=1

  • s_i: размер шрифта
  • f_{\mathrm{max}}: максимальный размер шрифта
  • t_i: вес тега
  • t_{\mathrm{min}}: минимальный вес
  • t_{\mathrm{max}}: максимальный вес

Оскільки число врахованих елементів на кожний тег зазвичай розподілено по експонентному закону розподілу, тому для великих діапазонів значень має сенс використовувати логарифмічний логарифмічний уявлення. 

Реалізація хмари тегів також включає синтаксичний аналіз, фільтрацію непотрібних тегів, таких як прийменники, займенники, числа та розділові знаки. 

Також існують веб-сайти, які створюють штучні або випадково розподілені хмари тегів для реклами або з гумористичною метою.

Див. також[ред.ред. код]

Примечания[ред.ред. код]

Шаблон:Примечания

Джерела[ред.ред. код]

  • Collins, C., Viegas, F. and Wattenberg, M. Parallel Tag Clouds to Explore and Analyze Faceted Text Corpora. (англ.) // VAST. — 2009.