Apache Tika

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Apache Tika
Tika-logo.png
Тип набір бібліотек
Розробник Apache Software Foundation
Перший випуск 2011
Стабільний випуск 1.7 (15 січня 2015; 1430 днів тому)
Версії 1.18 (24 квітня 2018)[1]
Репозиторій git-wip-us.apache.org/repos/asf/tika.git
Платформа JVM
Написано на Java[2]
Доступні мови Java
Ліцензія Apache License
tika.apache.org

Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.

Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проект.

Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проекту підготовлені обгортки для мов Python, .NET та C++.

Застосування[ред. | ред. код]

Технології Tika використані у фреймворку для побудови пошукових систем Nutch.

Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].

Примітки[ред. | ред. код]

  1. https://dist.apache.org/repos/dist/release/tika/CHANGES-1.18.txt
  2. The tika Open Source Project on Open Hub: Languages Page — 2006.
  3. Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Процитовано 18 квітня 2016. 

Посилання[ред. | ред. код]