Apache Tika

Apache Tika
Тип	набір бібліотек
Розробники	Apache Software Foundation
Перший випуск	2011
Стабільний випуск	1.7 (15 січня 2015; 9 років тому)
Платформа	JVM
Мова програмування	Java
Доступні мови	Java
Ліцензія	Apache License
Репозиторій	gitbox.apache.org/repos/asf/tika.git
Вебсайт	tika.apache.org
	Медіафайли у Вікісховищі;

Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.

Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.

Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.