Добування даних
Добува́ння да́них (англ. data mining), також глиби́нний ана́ліз да́них[джерело?] — процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів[1]. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.[джерело?]
На сучасних підприємствах, в дослідницьких проєктах або в інтернеті утворюються великі обсяги даних. Глибинний аналіз даних здійснюється автоматично шляхом застосування методів математичної статистики, штучних нейронних мереж, теорії нечітких множин або генетичних алгоритмів. Метою аналізу є виявлення правил та закономірностей, наприклад, статистичних подій. Так, наприклад, можливо виявити зміни у поведінці клієнтів або груп клієнтів для покращення стратегії підприємства.
Цей розділ потребує доповнення. (жовтень 2008) |
Цей розділ потребує доповнення. (жовтень 2008) |
Штучні нейронні мережі названі на основі схожості їхньої будови із нейронними зв'язками мозку людини. Дозволяють реалізовувати задачі кластеризації, класифікації, прогнозування. Після створення основ теорії нейронних мереж, вони зазнали значної критики і вважалося, що вони малопридатні для сфери штучного інтелекту. Проте відновленню інтересу до штучних нейронних мереж сприяв розвиток комп'ютерів та успіх в теоретичних та прикладних дослідженнях.[2]
Метод для розв'язання задачі класифікації. Результатом застосування цього методу до навчального матеріалу є ієрархічна структура правил типу «якщо … тоді … інакше …». Ця структура має вигляд дерева. Для визначення приналежності об'єкта до одного з класів слід надавати відповіді на запитання, що знаходяться у вершинах цього дерева. Розпочавши з кореня дерева, алгоритм завершується після досягнення тупикової вершини (листа), ця вершина і визначатиме клас, до якого належить об'єкт.[3]
Регресійний аналіз займається методами аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу, не з'ясовує, чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.
Детальніші відомості з цієї теми ви можете знайти в статті Програмне забезпечення глибокого навчання.
Деякі продукти в Категорія:Програмне забезпечення аналізу даних та Категорія:Програмне забезпечення для статистичного аналізу також включають можливості глибинного аналізу даних та машинного навчання.
Безкоштовне програмне забезпечення та програми для інтелектуального аналізу даних з відкритим кодом
Наступні програми доступні за безкоштовними ліцензіями/ліцензіями з відкритим кодом. Також доступний публічний доступ до вихідного коду програми.
- Carrot2 : структура кластеризації тексту та результатів пошуку.
- Chemicalize.org: інструмент пошуку хімічної структури та веб-пошукова система.
- ELKI: університетський дослідницький проєкт із вдосконаленим кластерним аналізом і методами виявлення викидів, написаний мовою Java.
- GATE: інструмент обробки природної мови та розробки мови.
- KNIME: Констанц Інформаційний Майнер, зручний і комплексний інструмент аналітики даних.
- Massive Online Analysis (MOA): інтелектуальний аналіз великих потоків даних у реальному часі з інструментом дрейфу концепції на мові програмування Java.
- MEPX: крос-платформний інструмент для регресії та класифікації проблем на основі варіанту генетичного програмування.
- mlpack: набір готових до використання алгоритмів машинного навчання, написаних мовою C++.
- NLTK (Набір інструментів природної мови): набір бібліотек і програм для символічної та статистичної обробки природної мови (NLP) для мови Python.
- OpenNN: відкрита бібліотека нейронних мереж.
- Orange: набір програмного забезпечення для аналізу даних і машинного навчання на основі компонентів, написаний мовою Python.
- PSPP: програмне забезпечення для аналізу даних і статистики в рамках проєкту GNU, схоже на SPSS.
- R: Мова програмування та програмне середовище для статистичних обчислень, аналізу даних і графіки. Це частина проєкту GNU.
- Scikit-learn: бібліотека машинного навчання з відкритим кодом для мови програмування Python.
- Torch: бібліотека глибокого навчання з відкритим кодом для мови програмування Lua та фреймворку наукових обчислень із широкою підтримкою алгоритмів машинного навчання.
- UIMA: UIMA (Unstructured Information Management Architecture) — це компонентна структура для аналізу неструктурованого вмісту, такого як текст, аудіо та відео, спочатку розроблена IBM.
- Weka: набір програм для машинного навчання, написаних мовою програмування Java.
Власне програмне забезпечення та додатки для аналізу даних
Наступні програми доступні за ліцензіями власності.
- Angoss KnowledgeSTUDIO: інструмент аналізу даних.
- LIONsolver: інтегрований програмний додаток для аналізу даних, бізнес-аналітики та моделювання, який реалізує підхід Learning and Intelligent OptimizationN (LION).
- PolyAnalyst: програмне забезпечення для аналізу даних і тексту від Megaputer Intelligence.
- Microsoft Analysis Services: програмне забезпечення інтелектуального аналізу даних, надане Microsoft.
- NetOwl: набір багатомовних продуктів для аналітики тексту та об'єктів, які дозволяють аналізувати дані.
- Oracle Data Mining: програмне забезпечення для аналізу даних від корпорації Oracle.
- PSeven: платформа для автоматизації інженерного моделювання та аналізу, мультидисциплінарної оптимізації та аналізу даних, надана DATADVANCE.
- Qlucore Omics Explorer: програмне забезпечення для аналізу даних.
- RapidMiner: середовище для експериментів з машинним навчанням і аналізом даних.
- SAS Enterprise Miner: програмне забезпечення для аналізу даних, надане SAS Institute.
- SPSS Modeler: програмне забезпечення інтелектуального аналізу даних, надане IBM.
- STATISTICA Data Miner: програмне забезпечення для аналізу даних, надане StatSoft.
- Tanagra: програмне забезпечення для аналізу даних, орієнтоване на візуалізацію, також для навчання.
- Vertica: програмне забезпечення для аналізу даних, надане Hewlett-Packard.
- Google Cloud Platform: автоматизовані спеціальні моделі ML, якими керує Google.
- Amazon SageMaker: керований сервіс, який надає Amazon для створення та виробництва користувацьких моделей ML.
- Silberschatz, Abraham; Sudarshan, S. (2011). Database system concepts (вид. 6). New York: McGraw-Hill. ISBN 9780073523323. OCLC 436031093.
- ↑ Silberschatz та Sudarshan, 2011, с. 25.
- ↑ Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.
- ↑ Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors
- Методи отримання даних [Архівовано 20 липня 2017 у Wayback Machine.](рос.)
- Визначення Data Mining
Це незавершена стаття з інформатики. Ви можете допомогти проєкту, виправивши або дописавши її. |