Nutch

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Apache Nutch
Lucene Nutch Logo
Nutch.png
Скріншот 
250pxNutch Web Interface Search
Розробник(и) Apache Software Foundation
Стабільний випуск 2.0 (9 липня 2012; 784 дні тому)
Написано на Java
Операційна система крос-платформовий
Стан розробки активний
Тип пошуковий рушій
Ліцензія Apache License 2.0
Сайт nutch.apache.org

Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.

Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.

Використання[ред.ред. код]

На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[1]

На основі Nutch побудовані такі пошукові системи

Виноски[ред.ред. код]

Посилання[ред.ред. код]