Метадані
Метада́ні (англ. Metadata, походить від лат. meta — мета, кінцевий пункт, межа, край і, власне, дані), у загальному випадку, — це дані, що характеризують або пояснюють інші дані. Наприклад, значення «123456» само по собі недостатньо виразне. А якщо значенню «123456» зіставлено достатньо виразне ім'я «поштовий індекс» (що вже є метаданими), то в цьому контексті значення «123456» більш осмислене — можна витягати інформацію про місцеположення адресата, що має даний поштовий індекс.
Оскільки для більшості людей різниця між словами «дані» та «інформація» є тільки з філософської точки зору і не істотна з практичної точки зору, то існують такі визначення:
- Метадані це інформація про дані.
- Метадані це інформація про інформацію.
Інші визначення
Для терміну метадані немає єдиного формального визначення. Навпаки, існують різні визначення цього терміну. Ось просте і популярне переформулювання:
- Метадані — це дані про дані.[1]. Цей термін в широкому сенсі слова використовується для будь-яких «даних про дані»: іменах таблиць, колонок в таблиці, програм і тому подібне.
- Метадані — це дані з загальнішої формальної системи, що описує задану систему даних.
Існують вужчі визначення:
- Метадані це структуровані дані, що являють собою характеристики описуваних сутностей для цілей їх ідентифікації, пошуку, оцінки, управління ними[2].
- Метадані це набір допустимих структурованих описів, які доступні в явному вигляді і призначення яких допомогти знайти об'єкт[3]. Це визначення використовується набагато рідше, оскільки воно концентрується на одному з призначень метаданих — пошук об'єктів, сутностей, ресурсів — та ігнорує інші призначення.
Ієрархії метаданих
Структуровані у вигляді ієрархії метадані правильніше називати онтологією або схемою метаданих (наприклад, XML-схема).
Відмінність між даними і метаданими
Зазвичай неможливо провести однозначне розділення на дані та метадані у документі, оскільки:
- Щось може бути як даними, так і метаданими. Так, заголовок статті можна одночасно віднести як до метаданих (як елемент метаданих — заголовок), так і до власне даних (оскільки заголовок є частиною самого тексту).
- Дані та метадані можуть мінятися ролями. На вірш, що розглядається як дані, може бути написана музика, в цьому випадку весь вірш може бути «прикріплений» до музичного файлу і в цьому випадку розглядається як метадані. Таким чином, віднесення до однієї або іншій категорії залежить від точки зору.
- Можливе створення мета-мета-…-метаданих. Оскільки, відповідно до звичайного визначення, метадані є даними, то можна створити метадані на метадані, метадані на метадані на метадані і так далі. На перший погляд це може здатися безглуздим, але насправді це є дуже істотною і корисною властивістю даних і метаданих.
Ці міркування застосовні незалежно від вибору визначення метаданих (з приведених вище і не тільки).
Використання
Метадані використовуються для підвищення якості пошуку. Пошукові запити, що використовують метадані можуть врятувати користувача від зайвої ручної роботи з фільтрації. Інформуючи комп'ютер про те, які елементи даних зв'язані і як ці зв'язки враховувати, стає можливим здійснювати достатньо складні операції по фільтрації та пошуку. Наприклад, якщо пошукова система «знає» про те, що «Ван Гог» є «голландським художником», то вона може видати у відповідь на запит про голландських художників веб-сторінку про Ван Гога, навіть якщо слова «голландський художник» не зустрічаються на цій сторінці. Такий підхід, званий представленням знань, знаходиться у сфері інтересів Семантичної павутини та штучного інтелекту.
Зокрема, метадані створюються для оптимізації алгоритмів стиснення з втратою якості. Наприклад, якщо до відео додаються метадані, що дозволяють комп'ютеру розділити зображення на основну частину і фонову, то остання може бути стиснута сильніше, що дозволить досягти більшого коефіцієнта стиснення.
Деякі види метаданих призначені для забезпечення можливості різних видів представлення деяких даних. Наприклад, якщо до зображення додаються метадані, що містять інформацію про те, яка частина зображення найважливіша (допустимо, зображення людини), то програма для проглядання зображень на маленькому екрані (такому, як на мобільному телефоні), може відобразити тільки цю найважливішу частину зображення. Аналогічно використовуються метадані, що дозволяють зробити доступними для сліпих діаграми і зображення, шляхом їх перетворення для виводу на спеціальні пристрої, або читання їх опису з використанням програмного забезпечення, що перетворює текст в мову.
Інші описові метадані можуть використовуватися автоматизованими робочими потоками. Наприклад, якщо деяка «розумна» програма «знає» вміст і структуру даних, то дані можуть бути автоматично перетворені і передані іншій «розумній» програмі як вхідні дані. В результаті, користувачі будуть врятовані від необхідності виконання безлічі рутинних операцій, якщо дані надані для роботи таким «небагатослівним» програмам.
Метадані стають важливі у World Wide Web внаслідок необхідності забезпечення пошуку корисної інформації серед величезної кількості доступної. Метадані, створені вручну мають велику цінність, оскільки це гарантує свідомість. Якщо веб-сторінка на якусь певну тему містить слово або фразу, то всі інші веб-сторінки на цю тему можуть містити таке ж слово або фразу. Метадані також володіють різноманітністю, тому якщо з якоюсь темою зв'язано два значення, то кожне з них може бути використане. Наприклад, стаття про Живий Журнал може бути позначена за допомогою декількох значень: «Живий Журнал», «ЖЖ», «LiveJournal».
Метадані використовуються для зберігання інформації про записи Audio CD. Аналогічно MP3 файли зберігають метадані у форматі ID3.
Класифікація метаданих
Метадані можна класифікувати за:
- Змістом. Метадані можуть або описувати сам ресурс (наприклад, назва і розмір файлу), або вміст ресурсу (наприклад, «у цьому відеофайлі показано як хлопець грає у футбол»).
- За відношенням до ресурсу в цілому. Метадані можуть відноситься до ресурсу в цілому або до його частин. Наприклад, «Title» (назва фільму) відноситься до фільму в цілому, а «Scene description» (опис епізоду фільму) окреме для кожного епізоду фільму.
- За можливістю логічного виводу. Метадані можна підрозділити на три шари:
- нижній шар — це «сирі» дані самі по собі;
- середній шар — метадані, що описують ці дані;
- верхній шар — метадані, які дозволяють робити логічний висновок, використовуючи другий шар.
Формат метаданих
Метаданими на практиці зазвичай називають дані, представлені відповідно до одного з форматів метаданих.
Формат метаданих — є стандарт, призначений для формального опису деякої категорії ресурсів (об'єктів, сутностей тощо). Такий стандарт зазвичай включає набір полів (атрибутів, властивостей, елементів метаданих), що дозволяють характеризувати даний об'єкт. Наприклад, формат MARC дозволяє описувати книги (і не тільки книги), містить поля для опису назви, автора, тематики і безлічі інших характеристик.
Формати можна класифікувати, по-перше, за охопленням і деталізацією типів ресурсів, що описуються. По-друге, за шириною та деталізацією області опису ресурсів і потужності структури елементів метаданих. Окрім цього, можна класифікувати за наочними областями, або цілями розробки і використання формату метаданих.
Формати метаданих часто розробляються міжнародними організаціями або консорціумами, що включають зацікавлені у появі стандарту державні організації та приватні компанії. Розроблений формат часто закріплюється як стандарт в одній або декількох організаціях, що займаються розробкою і ухваленням стандартів (наприклад W3C, ISO, ANSI і т. д.)
Класифікація форматів метаданих за наочною областю, що описується:
- DCMI є одним з найпоширеніших в Інтернет форматів метаданих для опису ресурсів будь-якого типу (як електронних документів, так і реальних фізичних об'єктів). Інші формати метаданих, призначені для опису архівів і електронних ресурсів GILS, EAD.
- для опису персон і організацій vCard та FOAF
- для опису бібліографічних ресурсів призначені формати сімейства MARC (MARC 21, використовується в США та Великій Британії, та UNIMARC, використовується в Європі та Азії); UNIMARC у свою чергу підрозділяється на національні розширення цього формату, так в Росії використовується RUSMARC, в Україні розробляється UKRMARC; через велику складність форматів сімейства MARC для вирішення завдань інтеграції даних був розроблений формат MODS.
- для опису музейних і історичних цінностей використовується формат CDWA
- для опису видавничої продукції використовуються PRISM та ONIX
- для кристалографічної інформації CIF
- для зберігання і обміну інформацією про погоду в бінарній формі GRIB
- для роботи із зображеннями зі супутників VICAR
- для опису новин NewsXML
і т. д.
Див. також
Примітки
- ↑ Воройский Ф.С. (2001). Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах) (вид. 2-е вид., перероб. і доп.). М.: Либерия. с. 536. ISBN 5-85129-134-6.
- ↑ Task Force on Metadata. Summary Report. // American Library Association. — 1999. — Т. June.
- ↑ D. C. A. Bultermann. Is It Time For a Moratorium on Metadata? // IEEE MultiMedia. — 2004. — Т. Oct-Dec.
Бібліографія
- Симонович С. В. Информатика. Базовый курс. Учебник для вузов / Симонович С. В. и др. — СПб.: Издательство Питер, 1999. — 640 с.
- Воройский Ф. С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах) 2-е вид., перероб. і доп.. — С. 536. — М. : Либерия , 2001. ISBN 5-85129-134-6.
- Task Force on Metadata. Summary Report. June. — (1999).
- Кабінет міністрів України Постанова Про затвердження Державної науково-технічної програми розвитку топографо-геодезичної діяльності та національного картографування на 2003–2010 роки (Державна науково-технічна програма, розд. Загальна частина) від 16 січня 2003 р. N 37 м. Київ
- D. C. A. Bultermann Is It Time For a Moratorium on Metadata? Oct-Dec. — (2004)
- Копанєва В. О. Формати опису мережевих інформаційних ресурсів / В. О. Копанєва // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів VIII Міжнар. наук.-практ. конф., Київ, 17-19 травня 2011 р. — К., 2011. — С. 187–189.