Метадані
Метада́ні (англ. metadata, походить від лат. meta — мета, кінцевий пункт, межа, край і, власне, дані), у загальному випадку, — це дані, що характеризують або пояснюють інші дані. Наприклад, значення «123456» само по собі недостатньо виразне. А якщо значенню «123456» зіставлено достатньо виразне ім'я «поштовий індекс» (що вже є метаданими), то в цьому контексті значення «123456» більш осмислене — можна витягати інформацію про місцеположення адресата, що має даний поштовий індекс.
Оскільки для більшості людей різниця між словами «дані» та «інформація» є тільки з філософської точки зору і не істотна з практичної точки зору, то існують такі визначення:
- Метадані це інформація про дані.
- Метадані це інформація про інформацію.
Для терміну метадані немає єдиного формального визначення. Навпаки, існують різні визначення цього терміну. Ось просте і популярне переформулювання:
- Метадані — це дані про дані.[1]. Цей термін в широкому сенсі слова вживають щодо будь-яких «даних про дані»: іменах таблиць, колонок в таблиці, програм і тому подібне.
- Метадані — це дані з загальнішої формальної системи, що описує задану систему даних.
Існують вужчі визначення:
- Метадані це структуровані дані, що являють собою характеристики описуваних сутностей для цілей їх ідентифікації, пошуку, оцінки, управління ними[2].
- Метадані це набір допустимих структурованих описів, які доступні в явному вигляді і призначення яких допомогти знайти об'єкт[3]. Це визначення використовують набагато рідше, оскільки воно концентрується на одному з призначень метаданих — пошук об'єктів, сутностей, ресурсів — та ігнорує інші призначення.
Структуровані у вигляді ієрархії метадані правильніше називати онтологією або схемою метаданих (наприклад, XML-схема).
Зазвичай неможливо провести однозначне розділення на дані та метадані у документі, оскільки:
- Щось може бути як даними, так і метаданими. Так, заголовок статті можна одночасно віднести як до метаданих (як елемент метаданих — заголовок), так і до власне даних (оскільки заголовок є частиною самого тексту).
- Дані та метадані можуть мінятися ролями. На вірш, що розглядається як дані, може бути написана музика, в цьому випадку весь вірш може бути «прикріплений» до музичного файлу і в цьому випадку розглядається як метадані. Таким чином, віднесення до однієї або іншій категорії залежить від точки зору.
- Можливе створення мета-мета-…-метаданих. Оскільки, відповідно до звичайного визначення, метадані є даними, то можна створити метадані на метадані, метадані на метадані на метадані і так далі. На перший погляд це може здатися безглуздим, але насправді це є дуже істотною і корисною властивістю даних і метаданих.
Ці міркування застосовні незалежно від вибору визначення метаданих (з приведених вище і не тільки).
Метадані використовують для підвищення якості пошуку. Пошукові запити, які використовують метадані, можуть врятувати користувача від зайвої ручної роботи з фільтрації. Інформуючи комп'ютер про те, які елементи даних зв'язані і як ці зв'язки враховувати, стає можливим здійснювати достатньо складні операції по фільтрації та пошуку. Наприклад, якщо пошукова система «знає» про те, що «Ван Гог» є «голландським художником», то вона може видати у відповідь на запит про голландських художників вебсторінку про Ван Гога, навіть якщо слова «голландський художник» не зустрічаються на цій сторінці. Такий підхід, званий представленням знань, знаходиться у сфері інтересів Семантичної павутини та штучного інтелекту.
Зокрема, метадані створюються для оптимізації алгоритмів стиснення з втратою якості. Наприклад, якщо до відео додаються метадані, що дозволяють комп'ютеру розділити зображення на основну частину і фонову, то остання може бути стиснута сильніше, що дозволить досягти більшого коефіцієнта стиснення.
Деякі види метаданих призначені для забезпечення можливості різних видів представлення деяких даних. Наприклад, якщо до зображення додаються метадані, що містять інформацію про те, яка частина зображення найважливіша (допустимо, зображення людини), то програма для проглядання зображень на маленькому екрані (такому, як на мобільному телефоні), може відобразити тільки цю найважливішу частину зображення. Аналогічно використовують метадані, що дозволяють зробити доступними для сліпих діаграми і зображення, шляхом їх перетворення для виводу на спеціальні пристрої, або читання їх опису з використанням програмного забезпечення, що перетворює текст в мову.
Автоматизовані робочі потоки можуть використовувати інші описові метадані. Наприклад, якщо деяка «розумна» програма «знає» вміст і структуру даних, то дані можуть бути автоматично перетворені і передані іншій «розумній» програмі як вхідні дані. В результаті, користувачі будуть врятовані від необхідності виконання безлічі рутинних операцій, якщо дані надані для роботи таким «небагатослівним» програмам.
Метадані стають важливі у World Wide Web внаслідок необхідності забезпечення пошуку корисної інформації серед величезної кількості доступної. Метадані, створені вручну мають велику цінність, оскільки це гарантує свідомість. Якщо вебсторінка на якусь певну тему містить слово або фразу, то всі інші вебсторінки на цю тему можуть містити таке ж слово або фразу. Метадані також володіють різноманітністю, тому якщо з якоюсь темою зв'язано два значення, то кожне з них може бути використане. Наприклад, стаття про Живий Журнал може бути позначена за допомогою декількох значень: «Живий Журнал», «ЖЖ», «LiveJournal».
Метадані використовують для зберігання інформації про записи Audio CD. Аналогічно MP3 файли зберігають метадані у форматі ID3.
Метадані можна класифікувати за:
- Змістом. Метадані можуть або описувати сам ресурс (наприклад, назва і розмір файлу), або вміст ресурсу (наприклад, «у цьому відеофайлі показано як хлопець грає у футбол»).
- За відношенням до ресурсу в цілому. Метадані можуть стосуватися ресурсу в цілому або його частин. Наприклад, «Title» (назва фільму) стосується фільму в цілому, а «Scene description» (опис епізоду фільму) є окремим для кожного епізоду фільму.
- За можливістю логічного виводу. Метадані можна поділити на три шари:
- нижній шар — це «сирі» дані самі по собі;
- середній шар — метадані, що описують ці дані;
- верхній шар — метадані, які дозволяють робити логічний висновок, використовуючи другий шар.
Метаданими на практиці зазвичай називають дані, представлені відповідно до одного з форматів метаданих.
Формат метаданих — є стандарт, призначений для формального опису деякої категорії ресурсів (об'єктів, сутностей тощо). Такий стандарт зазвичай включає набір полів (атрибутів, властивостей, елементів метаданих), що дозволяють характеризувати цей об'єкт. Наприклад, формат MARC дозволяє описувати книги (і не тільки книги), містить поля для опису назви, автора, тематики і безлічі інших характеристик.
Формати можна класифікувати, по-перше, за охопленням і деталізацією типів ресурсів, що описуються. По-друге, за шириною та деталізацією області опису ресурсів і потужності структури елементів метаданих. Окрім цього, можна класифікувати за наочними областями, або цілями розробки і використання формату метаданих.
Формати метаданих часто розробляються міжнародними організаціями або консорціумами, що включають зацікавлені у появі стандарту державні організації та приватні компанії. Розроблений формат часто закріплюється як стандарт в одній або декількох організаціях, що займаються розробкою і ухваленням стандартів (наприклад W3C, ISO, ANSI і т. д.)
Класифікація форматів метаданих за наочною областю, що описується:
- DCMI є одним з найпоширеніших в Інтернет форматів метаданих для опису ресурсів будь-якого типу (як електронних документів, так і реальних фізичних об'єктів). Інші формати метаданих, призначені для опису архівів і електронних ресурсів GILS, EAD.
- для опису персон і організацій vCard та FOAF
- для опису бібліографічних ресурсів призначені формати сімейства MARC (MARC 21, використовують у США та Великій Британії, та UNIMARC, використовують у Європі та Азії); UNIMARC своєю чергою підрозділяється на національні розширення цього формату, так в Росії використовуютьRUSMARC, в Україні розробляють UKRMARC; через велику складність форматів сімейства MARC для вирішення завдань інтеграції даних був розроблений формат MODS.
- для опису музейних і історичних цінностей використовують формат CDWA
- для опису видавничої продукції використовують PRISM та ONIX
- для кристалографічної інформації CIF
- для зберігання і обміну інформацією про погоду в бінарній формі GRIB
- для роботи із зображеннями зі супутників VICAR
- для опису новин NewsXML
і т. д.
- ↑ Воройский Ф.С. (2001). Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах) (вид. 2-е вид., перероб. і доп.). М.: Либерия. с. 536. ISBN 5-85129-134-6.
- ↑ Task Force on Metadata. Summary Report. // American Library Association. — 1999. — Т. June. Архівовано з джерела 14 листопада 2007. Процитовано 16 грудня 2007.
- ↑ D. C. A. Bultermann. Is It Time For a Moratorium on Metadata? // IEEE MultiMedia. — 2004. — Т. Oct-Dec.
- Симонович С. В. Информатика. Базовый курс. Учебник для вузов / Симонович С. В. и др. — СПб.: Издательство Питер, 1999. — 640 с.
- Воройский Ф. С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах) 2-е вид., перероб. і доп.. — С. 536. — М. : Либерия , 2001. ISBN 5-85129-134-6.
- Task Force on Metadata. Summary Report. June. — (1999).
- Кабінет міністрів України Постанова Про затвердження Державної науково-технічної програми розвитку топографо-геодезичної діяльності та національного картографування на 2003–2010 роки (Державна науково-технічна програма, розд. Загальна частина) від 16 січня 2003 р. N 37 м. Київ
- D. C. A. Bultermann Is It Time For a Moratorium on Metadata? Oct-Dec. — (2004)
- Копанєва В. О. Формати опису мережевих інформаційних ресурсів / В. О. Копанєва // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів VIII Міжнар. наук.-практ. конф., Київ, 17-19 травня 2011 р. — К., 2011. — С. 187–189.