Поняття метаданих

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Поняття даних[ред.ред. код]

Дані (від лат. data, множина від лат. datum, від лат. dare — давати, щось дане):

  1. Інформація, відомості, показники, необхідні для ознайомлення з ким-, чим-небудь, для характеристики когось, чогось або для прийняття певних висновків, рішень.
  2. Здібності, якості, необхідні для чого-небудь.
  3. Форма представлення знань, інформації. Тексти, таблиці, інструкції, відомості про факти, явища і таке інше, представлені у буквено-цифровій, числовій, текстовій, звуковій або графічній формі. Дані можуть зберігатися на різних носіях, в тому числі в ЕОМ та пересилатися і піддаватися обробці.
  4. Низка суджень, що відображають реальність. Велику групу практично важливих суджень складають вимірювання та спостереження за змінними. Ці судження охоплюють числа, слова та зображення. Дані отримуються в результаті якоїсь дії (вимірювання, обчислення)
  5. У семіотиці дані визначені як потенційна інформація. Вони розміщені на рівні сигматики, тобто між синтаксисом та семантикою.=

У інформатиці дані символізують інформацію, що представлена у вигляді необхідному для її опрацювання автоматичними засобами. Для цього інформацію кодують за допомогою знаків (алфавіт) відповідно до правил певного синтаксису. У сучасних машинах використовується двійковий метод запису даних за допомогою 0 та 1 (алфавіт з двох цифр). Для полегшення роботи для людини двійковий код перекодовується у зрозуміліші числа, букви тощо. Дані є інформацією лише тоді, коли вони несуть значення у заданому контексті. Наприклад: кодом міжнародного телефонного зв'язку є набір знаків +38, тобто це дані, про інформацію ми можемо говорити лише за наявності відомості про назву країни, що відповідає цьому коду. Дані розрізняють на:

  • структуровані (наприклад: база даних, XML-документ),
  • не структуровані (наприклад: текстовий документ),
  • тимчасові.

Структуровані дані відносно легко піддаються машинній обробці, на відміну від них автоматична обробка неструктурованих даних не завжди можлива або можлива лише неточна. Важливими проблемами у інформатиці, особливо у розподілених системах,— є синхронізація даних, а в управлінні даними — стрімке зростання кількості даних.

Поняття метаданих[ред.ред. код]

Метадані (у загальному випадку) — це дані, що характеризують або пояснюють інші дані. Наприклад, значення «123456» само по собі недостатньо виразно. А якщо значенню «123456» зіставлено достатньо виразне ім'я «поштовий індекс» (що вже є метаданими), то в цьому контексті значення «123456» більш осмислене — можна витягувати інформацію про місцеположення адресата, що має даний поштовий індекс. Оскільки для більшості людей різниця між словами «дані» та «інформація» є тільки з філософської точки зору і не істотна з практичної точки зору, то мають місце наступні визначення:

  • Метадані це інформація про дані.
  • Метадані це інформація про інформацію.

Інші визначення Для терміну метадані немає єдиного формального визначення. Навпаки, існують різні визначення цього терміну. Ось ряд простих і популярних формулювань:

  • Метадані — це дані про дані[2]. Цей термін в широкому сенсі слова використовується для будь-яких «даних про дані»: іменах таблиць, колонок в таблиці, програм і тому подібне.
  • Метадані — це дані з більш загальної формальної системи, що описує задану систему даних.
  • Метадані (Майкл Брекет) - будь-які дані про інформаційні ресурси організації.
  • Метадані (Адрієн Танненбаум) - детальний опис сутності даних.

Оскільки такі визначення мало що дають для розуміння суті метаданих, наведено їх основні характеристики:

  • вони описують атрибути (характеристики) документа (інформаційного ресурсу);
  • можуть автоматично генеруватись;
  • дають потенційному користувачеві документа (інформаційного ресурсу) можливість отримати повну попередню інформацію про його існування та характеристики;
  • «розуміються» комп'ютером (machine understandable).

Існують вужчі визначення:

  • Метадані — це структуровані дані, що являють собою характеристики описуваних сутностей для цілей їх ідентифікації, пошуку, оцінки, управління ними[3].
  • Метадані — це набір допустимих структурованих описів, які доступні в явному вигляді і призначення яких допомогти знайти об'єкт. Це визначення використовується набагато рідше, оскільки воно концентрується на одному з призначень метаданих — пошук об'єктів, сутностей, ресурсів — та ігнорує інші призначення[4].
  • Метадані - відомості, за допомогою яких описується структура, якість та інші характеристики просторових даних[5].

Структуровані у вигляді ієрархії метадані правильніше називати онтологією або схемою метаданих (наприклад, XML-схема).

Відмінність між даними і метаданими[ред.ред. код]

Зазвичай неможливо провести однозначне розділення на дані та метадані у документі, оскільки:

  • Щось може бути як даними, так і метаданими. Так, заголовок статті можна одночасно віднести як до метаданих (як елемент метаданих — заголовок), так і до власне даних (оскільки заголовок є частиною самого тексту).
  • Дані та метадані можуть мінятися ролями. На вірш, що розглядається як дані, може бути написана музика, в цьому випадку весь вірш може бути «прикріплений» до музичного файлу і в цьому випадку розглядається як метадані. Таким чином, віднесення до однієї або іншій категорії залежить від точки зору.
  • Можливе створення мета-мета-…-метаданих. Оскільки, відповідно до звичайного визначення, метадані є даними, то можна створити метадані на метадані, метадані на метадані на метадані і так далі. На перший погляд це може здатися безглуздим, але насправді це є дуже істотною і корисною властивістю даних і метаданих.

Ці міркування застосовні незалежно від вибору визначення метаданих (з приведених вище і не тільки).

Класифікація метаданих[ред.ред. код]

Метадані можна класифікувати за таким ознаками:

  • Змістом. Метадані можуть або описувати сам ресурс (наприклад, назва і розмір файлу), або вміст ресурсу (наприклад, «у цьому відеофайлі показано як хлопець грає у футбол»).
  • Відношенням до ресурсу в цілому. Метадані можуть відноситься до ресурсу в цілому або до його частин. Наприклад, «Title» (назва фільму) відноситься до фільму в цілому, а «Scene description» (опис епізоду фільму) окреме для кожного епізоду фільму.
  • Можливістю логічного виводу. Метадані можна підрозділити на три шари: нижній шар — це «сирі» дані самі по собі; середній шар — метадані, що описують ці дані; і верхній шар — метадані, які дозволяють робити логічний вивід, використовуючи другий шар.

Різні дослідники виділяють різні класифікації метаданих. Одна з них включає в себе 3 групи:

  1. Метадані, створювані web-службами індексування й пошуку (це дані, що збираються програмами-роботами на основі використання протоколу http і скриптів CGI для автоматичного створення записів про онлайнових інформаційних ресурсах).
  2. Метадані, використовувані для опису інформаційного ресурсу (наприклад, формати Dublin Core та IAFA / WHOIS + + (проект ROADS); записи можуть створюватися вручну або автоматично).
  3. Метадані, використовувані для завдання місцерозташування, аналізу, оцінки, документування і т.п. інформаційного ресурсу (такі метадані досить складні і дуже деталізовані, що вимагає залучення фахівців для їх розробки і супроводу).

Але більшість дослідників виділяє наступні типи метаданих:

  1. описові, наприклад, бібліографічна інформація або інші відомості про зміст (семантику) цифрових об'єктів;
  2. структурні, включаючи відомості про формати, структурі, об'ємі і інших формальних властивостях цифрових об'єктів;
  3. адміністративні - права, дозволи на доступ, на корекцію даних, дані про користувача, дані для систем оплати, технологічні дані.

Особливим типом метаданих є ідентифікатор, завдання якого - однозначне уявлення цифрового об'єкта для зовнішнього світу і різних додатків.

Формати метаданих[ред.ред. код]

Метаданими на практиці зазвичай називають дані, представлені відповідно до одного з форматів метаданих. Формат метаданих — це стандарт, призначений для формального опису деякої категорії ресурсів (об'єктів, сутностей, документів і т.п.). Такий стандарт зазвичай включає набір полів (атрибутів, властивостей, елементів метаданих), що дозволяють характеризувати даний об'єкт. Наприклад, формат MARC дозволяє описувати книги (і не тільки книги), містить поля для опису назви, автора, тематики і безлічі інших характеристик (формат MARC дозволяє описати сотні характеристик). Формати метаданих часто розробляються міжнародними організаціями або консорціумами, що включають зацікавлені у появі стандарту державні організації та приватні компанії. Розроблений формат часто закріплюється як стандарт в одній або декількох організаціях, що займаються розробкою і ухваленням стандартів (наприклад W3C, ISO, ANSI і т.д.). Класифікація форматів метаданих по описуваній наочній області:

  • Dublin Core Metadata Element Set (DCMI) є одним з найпоширеніших в Інтернет форматів метаданих для опису ресурсів будь-якого типу (як електронних документів, так і реальних фізичних об'єктів). Інші подібні формати метаданих, призначені для опису архівів і електронних ресурсів GILS, EAD.
  • для опису бібліографічних ресурсів призначені формати сімейства MARC (MARC 21 використовуваний в США і Великій Британії та UNIMARC використовуваний в Європі та Азії); UNIMARC у свою чергу підрозділяється на національні розширення цього формату, так в Росії використовується RUSMARC, в Україні розробляється UKRMARC; через велику складність форматів сімейства MARC для вирішення завдань інтеграції даних був розроблений формат MODS.
  • для опису музейних і історичних цінностей використовується формат CDWA
  • для опису видавничої продукції використовуються PRISM та ONIX
  • для кристалографічної інформації CIF
  • для роботи із зображеннями зі супутників VICAR
  • для опису новин NewsXML
  • для нерухомих цифрових зображень Z39.87
  • для опису проектів як інформаційних об'єктів PDM
  • для адаптації контенту Інтернета до апаратної платформи користувача CC/PP
  • для зв'язків між змістом слів, для принципів EAGLES-стандартів у галузі лексики та семантики EAGLES
  • для створення набору даних, пов'язаних з організаціями ISO 6523
  • для ідентифікації та керування об'єктами мультимедійних презентацій MPEG-21.

Існуючі системи метаданих[ред.ред. код]

  • GCMD -[1] - масиви та бази даних
  • EDMED - [2] - масиви даних (> 4 тис.)
  • EOSDIS - [3]
  • ADD - [4] - масиви та бази даних
  • APD - [5] - проекти
  • GLODIR - [6] - експерти
  • RV - [7] - судна
  • ROSCOP - [8], [9] - судна
  • ЦБМД ЕСИМО - [10] - 15 об’єктів метаданих
  • DADDI - [11] - бібліографічні відомості
  • МПГ - [12] - планові відомості про БД
  • Pangea - [13]
  • CIESIN - [14] – масиви даних в області соціальних наук
  • Oceanic - [15] - Information on the programs of RVs
  • OceanPortal - [16] - 5 thousand web - sites

Dublin Core[ред.ред. код]

Dublin Core був прийнятий як стандарт метаданих електронного керування. Він являє собою простий набір елементів, використовуваних для опису широкого спектра мережевих ресурсів. Був заснований внаслідок згоди міжнародної міждисциплінарної групи професіоналів таких дисциплін: бібліотекознавство, архіви, комп'ютерна наука, кодування тексту, музейна справа і деякі інші споріднені сфери наукової діяльності. Dublin Core складається з 15 базових елементів, а саме: назва, автор або творець, предмет і будь-які ключові слова, опис, видавець, інший вкладник, дата, тип ресурсу, формат, ідентифікатор ресурсу, джерело, мова, зв'язок, сфера користування і керування правами. Також існують 3 додаткових елементи, які доповнюють набір до кваліфікованого: аудиторія, походження, правовласник. Характерними цілями Dublin Core є

  • Простота в створенні та обслуговуванні.
  • Загальноприйнята семантика.
  • Міжнародний масштаб.
  • Здатність до розширення.

Dublin Core – це високорозвинений, гнучкий і прийнятий на міжнародному рівні стандарт. Метою його розроблення стало задоволення потреб виявлення. Але він не виконує жодних інших функцій, таких як керування записами. Можливо, знадобиться додавання додаткових елементів для співвіднесення цього стандарту з електронним керуванням і забезпечення виконання інших більш специфічних вимог до метаданих. Безсумнівно, подальші плани щодо розроблення додаткових елементів, що поліпшують стандарт метаданих електронного уряду, вже розглядаються. Такі додаткові елементи дозволять метаданим

  • Задовольнити всі потреби уряду щодо керування і відновлення інформації.
  • Розробити профіль застосування стандарту метаданих електронного керування для включення деталізації елементів і схем кодування.
  • Розробити загальноурядовий тезаурус.

Будучи повністю розробленою, структура стандарту метаданих електронного керування складається з базових елементів, профілю застосування, деталізації та схем кодування. Для будь-яких метаданих, елементи зі складових блоків, які доповнюються профілем застосування, що складається з деталізації елементів. Деталізація елементів розбиває складові блоки на менші підрозділи, а схеми кодування уточнюють формат, у якому буде записано значення для кожного елемента. Відсутність загальноприйнятого словника є одним із найбільших бар'єрів на шляху до ефективного відновлення інформації в ряді організацій. Тезаурус може функціонувати як путівник по термінології, загальній мові між організацією та суспільством, допомогти скоротити число “промахів” і забезпечити знаходження всіх коректних одиниць при пошуку. Розроблення і обслуговування загальноурядового тезауруса, таким чином, сприяє комунікації між урядом, підприємствами і громадянами. Існує два типи тезаурусів, а саме предметний і функціональний. Предметний тезаурус фіксує контент ресурсу, тобто, те, про що йде мова в ресурсі. Функціональний тезаурус фіксує роль ресурсу, тобто, робочий процес, до якого причетний ресурс. Ці тезауруси будуть корисні як для класифікації в рамках ведення обліку, так і для опису онлайн-ресурсів.

Використання метаданих[ред.ред. код]

Метадані використовуються для підвищення якості пошуку. Пошукові запити, використовуючи метадані, можуть врятувати користувача від зайвої ручної роботи по фільтрації. Інформуючи комп'ютер про те, які елементи даних зв'язані і як ці зв'язки враховувати, стає можливим здійснювати достатньо складні операції по фільтрації та пошуку. Наприклад, якщо пошукова система «знає» про те, що «Ван Гог» є «голландським художником», то вона може видати у відповідь на запит про голландських художників веб-сторінку про Ван Гога, навіть якщо слова «голландський художник» не зустрічаються на цій сторінці. Такий підхід, званий представленням знань, знаходиться у сфері інтересів Семантичної павутини та штучного інтелекту.

Метадані стають важливі у World Wide Web внаслідок необхідності забезпечення пошуку корисної інформації серед величезної кількості доступної. Метадані, створені вручну мають велику цінність, оскільки це гарантує свідомість. Якщо веб-сторінка на якусь певну тему містить слово або фразу, то всі інші веб-сторінки на цю тему можуть містити таке ж слово або фразу. Метадані також володіють різноманітністю, тому якщо з якоюсь темою зв'язано два значення, то кожне з них може бути використане. Наприклад, стаття про Живий Журнал може бути позначена за допомогою декількох значень: «Живий Журнал», «ЖЖ», «LiveJournal».

Зокрема, метадані створюються для оптимізації алгоритмів стиснення з втратою якості. Наприклад, якщо до відео додаються метадані, що дозволяють комп'ютеру розділити зображення на основну частину і фонову, то остання може бути стиснута сильніше, що дозволить досягти більшого коефіцієнта стиснення.

Деякі види метаданих призначені для забезпечення можливості різних видів представлення деяких даних. Наприклад, якщо до зображення додаються метадані, що містять інформацію про те, яка частина зображення найважливіша (допустимо, зображення людини), то програма для проглядання зображень на маленькому екрані (такому, як на мобільному телефоні), може відобразити тільки цю найважливішу частину зображення. Аналогічно використовуються метадані, що дозволяють зробити доступними для сліпих діаграми і зображення, шляхом їх перетворення для виводу на спеціальні пристрої, або читання їх опису з використанням програмного забезпечення, що перетворює текст в мову. Інші описові метадані можуть використовуватися автоматизованими робочими потоками. Наприклад, якщо деяка «розумна» програма «знає» вміст і структуру даних, то дані можуть бути автоматично перетворені і передані іншій «розумній» програмі як вхідні дані. В результаті, користувачі будуть врятовані від необхідності виконання безлічі рутинних операцій, якщо дані надані для роботи таким «небагатослівним» програмам.

Метадані використовуються для зберігання інформації про записи Audio CD. Аналогічно MP3 файли зберігають метадані у форматі ID3.

Практично кожний електронний документ має певні метадані. Метадані електронних документів відіграють важливу роль в системах електронного документообігу та автоматизації діловодства і інформаційно-пошукових системах. Метадані можуть, наприклад, включати дату, коли документ був збережений і відомості про особистість користувача, що зберіг його. Системи електронного документообігу та автоматизації діловодства можуть також здобувати метадані з документу автоматично або підказувати користувачеві додати метадані.

Джерела та література[ред.ред. код]

  1. Симонович С.В. Информатика. Базовый курс. Учебник для вузов / Симонович С.В. и др. – СПб.: Издательство Питер, 1999. – 640 с.
  2. Воройский Ф.С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах) 2-е вид., перероб. і доп.. — С. 536. — М. : Либерия , 2001. ISBN 5-85129-134-6.
  3. Task Force on Metadata. Summary Report. June. — (1999).
  4. Кабінет Міністрів України. Постанова Про затвердження Державної науково-технічної програми розвитку топографо-геодезичної діяльності та національного картографування на 2003-2010 роки (Державна науково-технічна програма, розд.Загальна частина) від 16 січня 2003 р. N 37 м.Київ
  5. D. C. A. Bultermann Is It Time For a Moratorium on Metadata? Oct-Dec. — (2004)
  6. Копанєва В.О. Формати опису мережевих інформаційних ресурсів / В.О. Копанєва // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів VIII Міжнар. наук.-практ. конф., Київ, 17-19 травня 2011 р. — К., 2011. — С. 187-189.