Обмежена машина Больцмана: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
актуалізовано переклад «Restricted Boltzmann machine»
Рядок 1: Рядок 1:
{{Short description|Один з класів штучних нейронних мереж}}
{{Машинне навчання|Штучна нейронна мережа}}
{{Машинне навчання|Штучна нейронна мережа}}
[[Файл:Restricted Boltzmann machine-uk.svg|thumb|Схема обмеженої машини Больцмана з трьома видимими вузлами та чотирма прихованими вузлами (без упереджених вузлів).]]
[[Файл:Restricted Boltzmann machine-uk.svg|thumb|Схема обмеженої машини Больцмана з трьома видимими вузлами та чотирма прихованими вузлами (без упереджених вузлів).]]
Рядок 10: Рядок 11:
|editor2-first=James L.
|editor2-first=James L.
|editor2-last=McLelland
|editor2-last=McLelland
|title=[[Конекціонізм|Parallel Distributed Processing]]: Explorations in the Microstructure of Cognition, Volume 1: Foundations
|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations
|publisher=MIT Press
|publisher=MIT Press
|year=1986
|year=1986
|pages=[https://archive.org/details/paralleldistribu00rume/page/194 194–281]
|pages=[https://archive.org/details/paralleldistribu00rume/page/194 194–281]
|chapter=Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory
|chapter=Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory
|chapter-url=http://www-psych.stanford.edu/~jlm/papers/PDP/Volume%201/Chap6_PDP86.pdf
|chapter-url=https://stanford.edu/~jlmcc/papers/PDP/Volume%201/Chap6_PDP86.pdf
|isbn=0-262-68053-X
|isbn=0-262-68053-X
|accessdate=13 січня 2016
|accessdate=13 січня 2016
|archive-date=13 червня 2013
|archive-date=14 липня 2023
|archive-url=https://web.archive.org/web/20130613014045/http://www-psych.stanford.edu/~jlm/papers/PDP/Volume%201/Chap6_PDP86.pdf
|archive-url=https://web.archive.org/web/20230714174222/https://stanford.edu/~jlmcc/papers/PDP/Volume%201/Chap6_PDP86.pdf
}} {{ref-en}}</ref> а популярності вони набули після винайдення [[Джефрі Хінтон]]ом зі співавторами у середині 2000-х років алгоритмів швидкого навчання для них. ОМБ знайшли застосування у [[Зниження розмірності|зниженні розмірності]],<ref>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = Reducing the Dimensionality of Data with Neural Networks | doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662 | url = http://www.cs.toronto.edu/~hinton/science.pdf | pmc = | accessdate = 13 січня 2016 | archive-date = 23 грудня 2015 | archive-url = https://web.archive.org/web/20151223152006/http://www.cs.toronto.edu/~hinton/science.pdf }} {{ref-en}}</ref> [[Статистична класифікація|класифікації]],<ref>{{Cite conference | last1 = Larochelle | first1 = H. | last2 = Bengio | first2 = Y. | doi = 10.1145/1390156.1390224 | title = Classification using discriminative restricted Boltzmann machines | conference = Proceedings of the 25th international conference on Machine learning - ICML '08 | pages = 536 | year = 2008 | isbn = 9781605582054 | pmid = | pmc = | url = http://machinelearning.org/archive/icml2008/papers/601.pdf | accessdate = 13 січня 2016 | archive-date = 13 жовтня 2017 | archive-url = https://web.archive.org/web/20171013170004/http://machinelearning.org/archive/icml2008/papers/601.pdf }} {{ref-en}}</ref> [[Колаборативна фільтрація|колаборативній фільтрації]],<ref name="softCF">{{Cite conference | doi = 10.1145/1273496.1273596| title = Restricted Boltzmann machines for collaborative filtering| conference = Proceedings of the 24th international conference on Machine learning - ICML '07| pages = 791| year = 2007| last1 = Salakhutdinov | first1 = R. | last2 = Mnih | first2 = A. | last3 = Hinton | first3 = G. | isbn = 9781595937933}} {{ref-en}}</ref> [[Навчання ознак|навчанні ознак]]<ref name="coates2011">{{cite conference
}} {{ref-en}}</ref> а популярності вони набули після винайдення [[Джефрі Гінтон]]ом зі співавторами у середині 2000-х років алгоритмів швидкого навчання для них. ОМБ знайшли застосування у [[Зниження розмірності|зниженні розмірності]],<ref>{{Cite journal | last1 = Hinton | first1 = G. E. | last2 = Salakhutdinov | first2 = R. R. | title = Reducing the Dimensionality of Data with Neural Networks | doi = 10.1126/science.1127647 | journal = Science | volume = 313 | issue = 5786 | pages = 504–507 | year = 2006 | pmid = 16873662 | url = http://www.cs.toronto.edu/~hinton/science.pdf | bibcode = 2006Sci...313..504H | s2cid = 1658773 | accessdate = 13 січня 2016 | archive-date = 23 грудня 2015 | archive-url = https://web.archive.org/web/20151223152006/http://www.cs.toronto.edu/~hinton/science.pdf }} {{ref-en}}</ref> [[Статистична класифікація|класифікації]],<ref>{{Cite conference | last1 = Larochelle | first1 = H. | last2 = Bengio | first2 = Y. | doi = 10.1145/1390156.1390224 | title = Classification using discriminative restricted Boltzmann machines | conference = Proceedings of the 25th international conference on Machine learning - ICML '08 | pages = 536 | year = 2008 | isbn = 9781605582054 | url = http://machinelearning.org/archive/icml2008/papers/601.pdf | accessdate = 13 січня 2016 | archive-date = 13 жовтня 2017 | archive-url = https://web.archive.org/web/20171013170004/http://machinelearning.org/archive/icml2008/papers/601.pdf }} {{ref-en}}</ref> [[Колаборативна фільтрація|колаборативній фільтрації]],<ref name="softCF">{{Cite conference | doi = 10.1145/1273496.1273596| title = Restricted Boltzmann machines for collaborative filtering| conference = Proceedings of the 24th international conference on Machine learning - ICML '07| pages = 791| year = 2007| last1 = Salakhutdinov | first1 = R. | last2 = Mnih | first2 = A. | last3 = Hinton | first3 = G. | isbn = 9781595937933}} {{ref-en}}</ref> [[Навчання ознак|навчанні ознак]],<ref name="coates2011">{{cite conference
|last1 = Coates
|last1 = Coates
|first1 = Adam
|first1 = Adam
Рядок 34: Рядок 35:
|archive-date = 20 грудня 2014
|archive-date = 20 грудня 2014
|archive-url = https://web.archive.org/web/20141220030058/http://cs.stanford.edu/~acoates/papers/coatesleeng_aistats_2011.pdf
|archive-url = https://web.archive.org/web/20141220030058/http://cs.stanford.edu/~acoates/papers/coatesleeng_aistats_2011.pdf
}} {{ref-en}}</ref> та [[Тематичне моделювання|тематичному моделюванні]].<ref name="softTM">Ruslan Salakhutdinov and Geoffrey Hinton (2010). [http://books.nips.cc/papers/files/nips22/NIPS2009_0817.pdf Replicated softmax: an undirected topic model] {{Webarchive|url=https://web.archive.org/web/20120525063031/http://books.nips.cc/papers/files/nips22/NIPS2009_0817.pdf |date=25 травня 2012 }}. ''{{нп|Neural Information Processing Systems}}'' '''23'''. {{ref-en}}</ref> Їх можна тренувати як [[Навчання з учителем|керованим]], так і [[Навчання без учителя|спонтанним]] чином, в залежності від завдання.
}} {{ref-en}}</ref> [[Тематичне моделювання|тематичному моделюванні]]<ref name="softTM">Ruslan Salakhutdinov and Geoffrey Hinton (2010). [http://books.nips.cc/papers/files/nips22/NIPS2009_0817.pdf Replicated softmax: an undirected topic model] {{Webarchive|url=https://web.archive.org/web/20120525063031/http://books.nips.cc/papers/files/nips22/NIPS2009_0817.pdf |date=25 травня 2012 }}. ''{{нп|Neural Information Processing Systems}}'' '''23'''. {{ref-en}}</ref> та навіть {{нп|Задача багатьох тіл|квантовій механіці багатьох тіл||Many-body problem}}.<ref>{{Cite journal|last1=Carleo|first1=Giuseppe|last2=Troyer|first2=Matthias|date=2017-02-10|title=Solving the quantum many-body problem with artificial neural networks|journal=Science|language=en|volume=355|issue=6325|pages=602–606|doi=10.1126/science.aag2302|pmid=28183973|issn=0036-8075|arxiv=1606.02318|bibcode=2017Sci...355..602C|s2cid=206651104}}</ref><ref>{{Cite journal|last1=Melko|first1=Roger G.|last2=Carleo|first2=Giuseppe|last3=Carrasquilla|first3=Juan|last4=Cirac|first4=J. Ignacio|date=September 2019|title=Restricted Boltzmann machines in quantum physics|journal=Nature Physics|language=en|volume=15|issue=9|pages=887–892|doi=10.1038/s41567-019-0545-1|bibcode=2019NatPh..15..887M|issn=1745-2481|doi-access=free}}</ref> Їх можна тренувати як [[Кероване навчання|керованим]], так і [[Некероване навчання|некерованим]] чином, залежно від завдання.


Як випливає з їхньої назви, ОМБ є варіантом [[Машина Больцмана|машин Больцмана]], з тим обмеженням, що їхні [[Штучний нейрон|нейрони]] мусять формувати [[двочастковий граф]]: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші алгоритми тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм '''порівня́льної розбі́жності''' ({{lang-en|contrastive divergence}}) на основі [[Градієнтний спуск|градієнтного спуску]].<ref name="oncd">Miguel Á. Carreira-Perpiñán and Geoffrey Hinton (2005). On contrastive divergence learning. ''Artificial Intelligence and Statistics''. {{ref-en}}</ref>
Як випливає з їхньої назви, ОМБ є варіантом [[Машина Больцмана|машин Больцмана]], з тим обмеженням, що їхні [[Штучний нейрон|нейрони]] мусять формувати [[двочастковий граф]]: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші [[алгоритм]]и тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм '''порівня́льної розбі́жності''' ({{lang-en|contrastive divergence}}) на основі [[Градієнтний спуск|градієнтного спуску]].<ref name="oncd">Miguel Á. Carreira-Perpiñán and Geoffrey Hinton (2005). [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.221.8829&rep=rep1&type=pdf#page=42 On contrastive divergence learning]. ''Artificial Intelligence and Statistics''. {{ref-en}}</ref>


Обмежені машини Больцмана можуть також застосовуватися в мережах [[Глибоке навчання|глибокого навчання]]. Зокрема, [[Глибока мережа переконань|глибокі мережі переконань]] можуть утворюватися «складанням» ОМБ та, можливо, тонким налаштуванням отримуваної глибокої мережі за допомогою [[Градієнтний спуск|градієнтного спуску]] та [[Метод зворотного поширення помилки|зворотного поширення]].<ref>{{Cite journal
Обмежені машини Больцмана можливо також застосовувати в мережах [[Глибоке навчання|глибокого навчання]]. Зокрема, [[Глибока мережа переконань|глибокі мережі переконань]] можуть утворюватися «складанням» ОМБ та, можливо, тонким настроюванням отримуваної глибокої мережі за допомогою [[Градієнтний спуск|градієнтного спуску]] та [[Метод зворотного поширення помилки|зворотного поширення]].<ref>{{Cite journal
| last1 = Hinton
| last1 = Hinton
| first1 = G.
| first1 = G.
Рядок 48: Рядок 49:
| pages = 5947
| pages = 5947
| year = 2009
| year = 2009
| bibcode = 2009SchpJ...4.5947H| doi-access = free
| pmid =
| pmc =
| url = http://www.scholarpedia.org/article/Deep_belief_networks
| accessdate = 13 січня 2016
| archive-date = 4 грудня 2015
| archive-url = https://web.archive.org/web/20151204000832/http://www.scholarpedia.org/article/Deep_belief_networks
}} {{ref-en}}</ref>
}} {{ref-en}}</ref>


== Структура ==
== Структура ==


Стандартний тип ОМБ має двійковозначні ([[Булева алгебра|булеві]]/[[Розподіл Бернуллі|бернуллієві]]) приховані та видимі вузли, і складається з [[Матриця (математика)|матриці]] {{H:title|англ. weights|вагових коефіцієнтів}} <math>W = (w_{i,j})</math> (розміру ''m''×''n''), пов'язаної зі з'єднанням між {{H:title|англ. hidden|прихованим}} вузлом <math>h_j</math> та {{H:title|англ. visible|видимим}} вузлом <math>v_i</math>, а також вагових коефіцієнтів {{H:title|англ. bias|упереджень}} ({{H:title|англ. offset|зсувів}}) <math>a_i</math> для видимих вузлів, і <math>b_j</math> для прихованих вузлів. З урахуванням цього, ''енергія'' конфігурації (пари булевих векторів) {{math|(''v'',''h'')}} визначається як
Стандартний тип ОМБ має бінарновозначні ([[Булева алгебра|булеві]]) приховані та видимі вузли, і складається з [[Матриця (математика)|матриці]] {{H:title|англ. weights|вагових коефіцієнтів}} <math>W</math> розміру <math>m\times n</math>. Кожен ваговий елемент <math>(w_{i,j})</math> цієї матриці пов'язано зі з'єднанням між {{H:title|англ. visible|видимим}} (вхідним) вузлом <math>v_i</math> та {{H:title|англ. hidden|прихованим}} вузлом <math>h_j</math>. Крім того, є вагові коефіцієнти {{H:title|англ. bias|упереджень}} ({{H:title|англ. offsets|зміщення}}) <math>a_i</math> для <math>v_i</math> та <math>b_j</math> для <math>h_j</math>. З урахуванням цих ваг та упереджень, ''енергію'' конфігурації (пари булевих векторів) {{math|(''v'',''h'')}} визначають як


: <math>E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j -\sum_i \sum_j v_i w_{i,j} h_j</math>
: <math>E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j -\sum_i \sum_j v_i w_{i,j} h_j</math>
Рядок 64: Рядок 60:
або, в матричному записі,
або, в матричному записі,


: <math>E(v,h) = -a^{\mathrm{T}} v - b^{\mathrm{T}} h -v^{\mathrm{T}} W h</math>
: <math>E(v,h) = -a^{\mathrm{T}} v - b^{\mathrm{T}} h -v^{\mathrm{T}} W h.</math>


Ця функція енергії є аналогічною до функції енергії [[Нейронна мережа Хопфілда|мережі Хопфілда]]. Як і в загальних машинах Больцмана, розподіли ймовірності над прихованими та/або видимими векторами визначаються в термінах функції енергії:<ref name="guide">Geoffrey Hinton (2010). ''[http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf A Practical Guide to Training Restricted Boltzmann Machines] {{Webarchive|url=https://web.archive.org/web/20140925041702/http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf |date=25 вересня 2014 }}''. UTML TR 2010—003, University of Toronto. {{ref-en}}</ref>
Ця функція енергії аналогічна функції енергії [[Нейронна мережа Гопфілда|мережі Гопфілда]]. Як і з загальними машинами Больцмана, [[спільний розподіл імовірності]] для видимих та прихованих векторів визначають у термінах функції енергії наступним чином:<ref name="guide">Geoffrey Hinton (2010). ''[http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf A Practical Guide to Training Restricted Boltzmann Machines] {{Webarchive|url=https://web.archive.org/web/20140925041702/http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf |date=25 вересня 2014 }}''. UTML TR 2010—003, University of Toronto. {{ref-en}}</ref>


: <math>P(v,h) = \frac{1}{Z} e^{-E(v,h)}</math>
: <math>P(v,h) = \frac{1}{Z} e^{-E(v,h)}</math>


де <math>Z</math> є {{нп|Статистична сума (математика)|статистичною сумою||Partition function (mathematics)}}, визначеною як сума <math>e^{-E(v,h)}</math> над усіма можливими конфігураціями (іншими словами, просто {{нп|нормувальна стала|||Normalizing constant}} для забезпечення того, щоби розподіл імовірності давав у сумі 1). Аналогічно, ([[Відособлений розподіл|відособлена]]) ймовірність видимого (вхідного) вектора булевих значень є сумою над усіма можливими конфігураціями прихованого шару:<ref name="guide"/>
де <math>Z</math> є {{нп|Статистична сума (математика)|статистичною сумою||Partition function (mathematics)}}, визначеною як сума <math>e^{-E(v,h)}</math> над усіма можливими конфігураціями, що можливо інтерпретувати як {{нп|Нормувальна стала|нормувальну сталу||Normalizing constant}} для забезпечення того, щоби ймовірності давали в сумі 1. [[Відособлений розподіл|Відособлена ймовірність]] видимого вектора є сумою <math>P(v,h)</math> над усіма можливими конфігураціями прихованого шару,<ref name="guide"/>


: <math>P(v) = \frac{1}{Z} \sum_h e^{-E(v,h)}</math>
: <math>P(v) = \frac{1}{Z} \sum_{\{h\}} e^{-E(v,h)}</math>,


Оскільки ОМБ має форму двочасткового графу, без з'єднань усередині шарів, активації прихованих вузлів є взаємно {{нп|Умовна незалежність|незалежними||Conditional independence}} для заданих активацій видимих вузлів, і навпаки, активації видимих вузлів є взаємно незалежними для заданих активацій прихованих вузлів.<ref name="oncd"/> Тобто, для <math>m</math> видимих вузлів та <math>n</math> прихованих вузлів [[Умовна ймовірність|умовною ймовірністю]] конфігурації видимих вузлів {{mvar|v}} для заданої конфігурації прихованих вузлів {{mvar|h}} є
і навпаки. Оскільки графова структура в основі ОМБ [[Двочастковий граф|двочасткова]] (тобто, без з'єднань усередині шарів), збудження прихованих вузлів є {{нп|Умовна незалежність|взаємно незалежними||Conditional independence}} для заданих збуджень видимих вузлів. І навпаки, збудження видимих вузлів є взаємно незалежними для заданих збуджень прихованих вузлів.<ref name="oncd"/> Тобто, для ''m'' видимих вузлів та ''n'' прихованих вузлів [[Умовна ймовірність|умовною ймовірністю]] конфігурації видимих вузлів {{mvar|v}} для заданої конфігурації прихованих вузлів {{mvar|h}} є


: <math>P(v|h) = \prod_{i=1}^m P(v_i|h)</math>.
: <math>P(v|h) = \prod_{i=1}^m P(v_i|h)</math>.
Рядок 82: Рядок 78:
: <math>P(h|v) = \prod_{j=1}^n P(h_j|v)</math>.
: <math>P(h|v) = \prod_{j=1}^n P(h_j|v)</math>.


Окремі ймовірності активації задаються як
Імовірності окремих збуджень задаються як


: <math>P(h_j=1|v) = \sigma \left(b_j + \sum_{i=1}^m w_{i,j} v_i \right)\,</math> та <math>\,P(v_i=1|h) = \sigma \left(a_i + \sum_{j=1}^n w_{i,j} h_j \right)</math>
: <math>P(h_j=1|v) = \sigma \left(b_j + \sum_{i=1}^m w_{i,j} v_i \right)</math> та <math>\,P(v_i=1|h) = \sigma \left(a_i + \sum_{j=1}^n w_{i,j} h_j \right)</math>


де <math>\sigma</math> позначає [[Логістична функція|логістичну сигмоїду]].
де <math>\sigma</math> позначає [[Логістична функція|логістичну сигмоїду]].


Незважаючи на те, що приховані вузли є [[Розподіл Бернуллі|бернуллієвими]], видимі вузли ОМБ можуть бути [[Мультиноміальний розподіл|багатозначними]]. В такому випадку логістична функція для видимих вузлів замінюється [[Нормована експоненційна функція|нормованою експоненційною функцією]] ({{lang-en|Softmax function}})
Незважаючи на те, що приховані вузли є [[Розподіл Бернуллі|бернуллієвими]], видимі вузли обмеженої машини Больцмана можуть бути [[Мультиноміальний розподіл|багатозначними]].{{clarify|date=серпень 2023|reason=Що мається на увазі під бернуллієвістю в цьому контексті?}} В такому випадку логістична функція для видимих вузлів замінюється [[Нормована експоненційна функція|нормованою експоненційною функцією]] ({{lang-en|Softmax function}})


: <math>P(v_i^k = 1|h) = \frac{\exp(a_i^k + \Sigma_j W_{ij}^k h_j)} {\Sigma_{k=1}^K \exp(a_i^k + \Sigma_j W_{ij}^k h_j)}</math>
: <math>P(v_i^k = 1|h) = \frac{\exp(a_i^k + \Sigma_j W_{ij}^k h_j)} {\Sigma_{k'=1}^K \exp(a_i^{k'} + \Sigma_j W_{ij}^{k'} h_j)}</math>


де ''K'' є кількістю дискретних значень, які мають видимі значення. Вони застосовуються в тематичному моделюванні<ref name="softTM"/> та [[Рекомендаційна система|рекомендаційних системах]].<ref name="softCF"/>
де ''K'' є кількістю дискретних значень, які мають видимі значення. Вони застосовуються в тематичному моделюванні<ref name="softTM"/> та [[Рекомендаційна система|рекомендаційних системах]].<ref name="softCF"/>
Рядок 96: Рядок 92:
=== Співвідношення з іншими моделями ===
=== Співвідношення з іншими моделями ===


Обмежені машини Больцмана є особливим випадком машин Больцмана та [[Марковська мережа|марковських випадкових полів]].<ref name="cdconvergence">{{cite journal | first1 = Ilya | last1 = Sutskever | first2 = Tijmen | last2 = Tieleman | year = 2010 | title = On the convergence properties of contrastive divergence | journal = Proc. 13th Int'l Conf. on AI and Statistics (AISTATS) | url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SutskeverT10.pdf | accessdate = 13 січня 2016 | archiveurl = https://web.archive.org/web/20150610230811/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SutskeverT10.pdf | archivedate = 10 червня 2015 | deadurl = yes }} {{ref-en}}</ref><ref name="RBMTutorial">Asja Fischer and Christian Igel. [http://image.diku.dk/igel/paper/TRBMAI.pdf Training Restricted Boltzmann Machines: An Introduction] {{Webarchive|url=https://web.archive.org/web/20150610230447/http://image.diku.dk/igel/paper/TRBMAI.pdf |date=10 червня 2015 }}. Pattern Recognition 47, pp. 25-39, 2014 {{ref-en}}</ref> Їхня [[графова модель]] відповідає моделі [[Факторний аналіз|факторного аналізу]].<ref>{{cite journal |author1=María Angélica Cueto |author2=Jason Morton |author3=Bernd Sturmfels |year=2010 |url=http://www.jasonmorton.com/morton/publications/geomBoltzofficial.pdf |title=Geometry of the restricted Boltzmann machine |journal=Algebraic Methods in Statistics and Probability |volume=516 |publisher=American Mathematical Society |arxiv=0908.4425 }}{{Недоступне посилання|date=квітень 2019 |bot=InternetArchiveBot }} {{ref-en}}</ref>
Обмежені машини Больцмана є особливим випадком [[Машина Больцмана|машин Больцмана]] та [[Марковська мережа|марковських випадкових полів]].<ref name="cdconvergence">{{cite journal | first1 = Ilya | last1 = Sutskever | first2 = Tijmen | last2 = Tieleman | year = 2010 | title = On the convergence properties of contrastive divergence | journal = Proc. 13th Int'l Conf. On AI and Statistics (AISTATS) | url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SutskeverT10.pdf | url-status = dead | archive-url = https://web.archive.org/web/20150610230811/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SutskeverT10.pdf | archive-date = 2015-06-10 }} {{ref-en}}</ref><ref name="RBMTutorial">Asja Fischer and Christian Igel. [http://image.diku.dk/igel/paper/TRBMAI.pdf Training Restricted Boltzmann Machines: An Introduction] {{Webarchive|url=https://web.archive.org/web/20150610230447/http://image.diku.dk/igel/paper/TRBMAI.pdf |date=10 червня 2015 }}. Pattern Recognition 47, pp. 25-39, 2014 {{ref-en}}</ref> Їхня [[графова модель]] відповідає моделі [[Факторний аналіз|факторного аналізу]].<ref>{{cite journal |author1=María Angélica Cueto |author2=Jason Morton |author3=Bernd Sturmfels |year=2010 |title=Geometry of the restricted Boltzmann machine |journal=Algebraic Methods in Statistics and Probability |volume=516 |publisher=American Mathematical Society |arxiv=0908.4425 |bibcode=2009arXiv0908.4425A }} {{ref-en}}</ref>


== Алгоритм тренування ==
== Алгоритм тренування ==
Рядок 104: Рядок 100:
: <math>\arg\max_W \prod_{v \in V} P(v)</math>
: <math>\arg\max_W \prod_{v \in V} P(v)</math>


або, рівноцінно, максимізувати [[математичне сподівання]] [[Логарифмічна ймовірність|логарифмічної ймовірності]] <math>V</math>:<ref name="cdconvergence"/><ref name="RBMTutorial"/>
або, рівноцінно, максимізувати [[математичне сподівання]] [[Логарифмічна ймовірність|логарифмічної ймовірності]] тренувального зразка <math>v</math>, вибраного випадково з <math>V</math>:<ref name="cdconvergence"/><ref name="RBMTutorial"/>


: <math>\arg\max_W \mathbb{E} \left[\sum_{v \in V} \log P(v)\right]</math>
: <math>\arg\max_W \mathbb{E} \left[ \log P(v)\right]</math>


Алгоритмом, що найчастіше застосовується для тренування ОМБ, тобто для оптимізації вектора вагових коефіцієнтів <math>W</math>, є алгоритм порівняльної розбіжності (ПР, {{lang-en|contrastive divergence, CD}}), що належить [[Джефрі Хінтон|Хінтонові]], первинно розроблений для тренування моделей {{нп|Добуток експертів|добутку експертів||Product of experts}} ({{lang-en|product of experts, PoE}}).<ref>Geoffrey Hinton (1999). [http://www.gatsby.ucl.ac.uk/publications/papers/06-1999.pdf Products of Experts] {{Webarchive|url=https://web.archive.org/web/20150924020842/http://www.gatsby.ucl.ac.uk/publications/papers/06-1999.pdf |date=24 вересня 2015 }}. ''ICANN 1999''. {{ref-en}}</ref><ref>{{Cite journal | last1 = Hinton | first1 = G. E. | title = Training Products of Experts by Minimizing Contrastive Divergence | doi = 10.1162/089976602760128018 | journal = Neural Computation | volume = 14 | issue = 8 | pages = 1771–1800 | year = 2002 | pmid = 12180402 | url = http://www.cs.toronto.edu/~hinton/absps/tr00-004.pdf | pmc = | accessdate = 13 січня 2016 | archive-date = 3 березня 2016 | archive-url = https://web.archive.org/web/20160303214502/http://www.cs.toronto.edu/~hinton/absps/tr00-004.pdf }} {{ref-en}}</ref> Цей алгоритм здійснює {{нп|Вибірка за Ґіббсом|вибірку за Ґіббсом||Gibbs sampling}}, і використовується всередині процедури [[Градієнтний спуск|градієнтного спуску]] (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.
Алгоритмом, що найчастіше застосовують для тренування ОМБ, тобто для оптимізації матриці вагових коефіцієнтів <math>W</math>, є алгоритм порівняльної розбіжності (ПР, {{lang-en|contrastive divergence, CD}}), що належить [[Джефрі Гінтон|Гінтонові]], первинно розроблений для тренування моделей {{нп|Добуток експертів|добутку експертів||Product of experts}} ({{lang-en|product of experts, PoE}}).<ref>Geoffrey Hinton (1999). [http://www.gatsby.ucl.ac.uk/publications/papers/06-1999.pdf Products of Experts] {{Webarchive|url=https://web.archive.org/web/20150924020842/http://www.gatsby.ucl.ac.uk/publications/papers/06-1999.pdf |date=24 вересня 2015 }}. ''ICANN 1999''. {{ref-en}}</ref><ref>{{Cite journal | last1 = Hinton | first1 = G. E. | title = Training Products of Experts by Minimizing Contrastive Divergence | doi = 10.1162/089976602760128018 | journal = Neural Computation | volume = 14 | issue = 8 | pages = 1771–1800 | year = 2002 | pmid = 12180402| s2cid = 207596505 | url = http://www.cs.toronto.edu/~hinton/absps/tr00-004.pdf accessdate = 13 січня 2016 | archive-date = 3 березня 2016 | archive-url = https://web.archive.org/web/20160303214502/http://www.cs.toronto.edu/~hinton/absps/tr00-004.pdf }} {{ref-en}}</ref> Цей алгоритм здійснює {{нп|Вибірка за Ґіббзом|вибірку за Ґіббзом||Gibbs sampling}}, і використовується всередині процедури [[Градієнтний спуск|градієнтного спуску]] (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.


Елементарну, однокрокову процедуру порівняльної розбіжності (ПР-1, {{lang-en|CD-1}}) для єдиного зразка може бути описано таким чином:
Елементарну, однокрокову процедуру порівняльної розбіжності (ПР-1, {{lang-en|CD-1}}) для єдиного зразка може бути описано таким чином:


# Взяти тренувальний зразок {{mvar|v}}, обчислити ймовірності прихованих вузлів, та вибрати вектор прихованої активації {{mvar|h}} з цього розподілу ймовірності.
# Взяти тренувальний зразок {{mvar|v}}, обчислити ймовірності прихованих вузлів, та вибрати вектор прихованих збуджень {{mvar|h}} з цього розподілу ймовірності.
# Обчислити [[зовнішній добуток]] {{mvar|v}} та {{mvar|h}}, і назвати це ''позитивним градієнтом''.
# Обчислити [[зовнішній добуток]] {{mvar|v}} та {{mvar|h}}, і назвати це ''позитивним градієнтом''.
# Спираючись на {{mvar|h}}, вибрати відбудову видимих вузлів {{mvar|v'}}, а потім перевибрати з неї приховані активації {{mvar|h'}}. (крок вибірки за Ґіббсом)
# Спираючись на {{mvar|h}}, вибрати відбудову видимих вузлів {{mvar|v'}}, а потім перевибрати з неї приховані збудження {{mvar|h'}}. (крок вибірки за Ґіббзом)
# Обчислити [[зовнішній добуток]] {{mvar|v'}} та {{mvar|h'}}, і назвати це ''негативним градієнтом''.
# Обчислити [[зовнішній добуток]] {{mvar|v'}} та {{mvar|h'}}, і назвати це ''негативним градієнтом''.
# Покласти уточненням <math>w_{i,j}</math> різницю позитивного та негативного градієнтів, помножену на певний темп навчання: <math>\Delta w_{i,j} = \epsilon (vh^\mathsf{T} - v'h'^\mathsf{T})</math>.
# Покласти уточненням вагової матриці <math>W</math> різницю позитивного та негативного градієнтів, помножену на певний темп навчання: <math>\Delta W = \epsilon (vh^\mathsf{T} - v'h'^\mathsf{T})</math>.
# Уточнити упередження {{mvar|a}} та {{mvar|b}} аналогічно: <math>\Delta a = \epsilon (v - v')</math>, <math>\Delta b = \epsilon (h - h')</math>.


Практичну настанову з тренування ОМБ, написану Гінтоном, можна знайти на його домашній сторінці.<ref name="guide"/>
Правило уточнення для упереджень {{mvar|a}} та {{mvar|b}} визначається аналогічно.


== Складена обмежена машина Больцмана ==
Практичну настанову з тренування ОМБ, написану Хінтоном, можна знайти на його домашній сторінці.<ref name="guide"/>
{{Незрозуміло|розділ|дата=серпень 2023}}
{{Недостатньо джерел у розділі|дата=Серпень 2023}}
{{Див. також|Глибока мережа переконань}}

* Відмінність між складеними обмеженими машинами Больцмана ({{lang-en|Stacked Restricted Boltzmann Machines}}) та ОМБ полягає в тому, що ОМБ має бічні з’єднання всередині шару, які заборонено для того, щоби зробити аналіз піддатливим. З іншого боку, складена больцманова машина складається з поєднання некерованої тришарової мережі з симетричними вагами та керованого тонко настроюваного верхнього шару для розпізнавання трьох класів.
* Використання складеної больцманової машини призначене для [[розуміння природної мови]], {{нп|Пошук документів|пошуку документів||Document retrieval}}, створення зображень та класифікування. Ці функції тренуються некерованим попереднім тренуванням та/або керованим тонким настроюванням. На відміну від неорієнтованого симетричного верхнього шару, з двоспрямованим несиметричним шаром для підключення до ОМБ. Обмежені больцманові з'єднання є тришаровим з асиметричними вагами, а дві мережі об'єднано в одну.
* Складена больцманова машина має спільні риси з ОМБ, нейрон для складеної больцманової машини це стохастичний бінарний нейрон Гопфілда, такий же, як і в обмеженій машині Больцмана. Енергію як для складеної больцманової машини, так і для ОМБ, задають ґіббзовою мірою ймовірності <math>E = -\frac12\sum_{i,j}{w_{ij}{s_i}{s_j}}+\sum_i{\theta_i}{s_i}</math>. Процес тренування обмежених больцманових машин подібний до ОМБ. Обмежені больцманові машини тренують пошарово та наближують стан рівноваги 3-сегментним проходом, не виконуючи зворотного поширення. Обмежені больцманові машини використовують як кероване, так і некероване тренування на різних ОБМ для попереднього тренування для класифікування та розпізнавання. Тренування використовує порівняльну розбіжність з ґіббзовим вибиранням: Δw<sub>ij</sub> = e*(p<sub>ij</sub> - p'<sub>ij</sub>)
* Перевага обмеженої больцманової машини полягає у виконанні нелінійного перетворення, тому її легко розширити, що може дати ієрархічний шар ознак. Слабкість полягає у складності обчислень цілочислових та дійснозначних нейронів. Вона не слідує градієнтові будь-якої функції, тож наближення порівняльної розбіжності до максимальної правдоподібності є імпровізованим.<ref name="guide"/>

== Література ==

* {{Citation|last1=Fischer|first1=Asja|title=An Introduction to Restricted Boltzmann Machines|date=2012|work=Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications|pages=14–36|place=Berlin, Heidelberg|publisher=Springer Berlin Heidelberg|last2=Igel|first2=Christian|series=Lecture Notes in Computer Science |volume=7441 |doi=10.1007/978-3-642-33275-3_2 |isbn=978-3-642-33274-6 |doi-access=free |language=en}}


== Див. також ==
== Див. також ==


* [[Автокодувальник]]
* [[Автокодувальник]]
* [[Глибоке навчання]]
* {{нп|Машина Гельмгольца|||Helmholtz machine}}
* {{нп|Машина Гельмгольца|||Helmholtz machine}}
* [[Нейронна мережа Хопфілда]]


== Примітки ==
== Примітки ==
Рядок 136: Рядок 143:


* [http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ Введення до обмежених машин Больцмана] {{Webarchive|url=https://web.archive.org/web/20121029074609/http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ |date=29 жовтня 2012 }}. Блог Едвіна Чена ({{lang-en|Edwin Chen}}), 18 липня 2011&nbsp;р. {{ref-en}}
* [http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ Введення до обмежених машин Больцмана] {{Webarchive|url=https://web.archive.org/web/20121029074609/http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ |date=29 жовтня 2012 }}. Блог Едвіна Чена ({{lang-en|Edwin Chen}}), 18 липня 2011&nbsp;р. {{ref-en}}
* [https://web.archive.org/web/20180126140955/https://deeplearning4j.org/restrictedboltzmannmachine.html Керівництво з обмежених машин Больцмана для початківців]. Документація [[Deeplearning4j]] {{ref-en}}
* {{Cite web |url=https://deeplearning4j.org/restrictedboltzmannmachine.html |title=A Beginner's Guide to Restricted Boltzmann Machines |access-date=November 15, 2018 |archive-url=https://web.archive.org/web/20170211042953/https://deeplearning4j.org/restrictedboltzmannmachine.html |archive-date=February 11, 2017 |df=mdy-all }}. Документація [[Deeplearning4j]] {{ref-en}}
* [https://web.archive.org/web/20160920122139/http://deeplearning4j.org/understandingRBMs.html Розуміння ОМБ]. Документація Deeplearning4j, 4 серпня 2015&nbsp;р. {{ref-en}}
* {{Cite web |url=http://deeplearning4j.org/understandingRBMs.html |title=Understanding RBMs |access-date=December 29, 2014 |archive-url=https://web.archive.org/web/20160920122139/http://deeplearning4j.org/understandingRBMs.html |archive-date=September 20, 2016 |url-status=dead |df=mdy-all }}. Документація Deeplearning4j {{ref-en}}
* [https://github.com/AmazaspShumik/sklearn-bayes/blob/master/skbayes/decomposition_models/rbm.py Втілення] ОМБ Бернуллі мовою ''[[Python]]'', та [https://github.com/AmazaspShumik/sklearn-bayes/blob/master/ipython_notebooks_tutorials/decomposition_models/rbm_demo.ipynb посібник] {{ref-en}}
* [https://github.com/swirepe/SimpleRBM SimpleRBM] це дуже мелий код ОМБ (24&nbsp;кБ), корисний вам для вивчення того, як вчаться та працюють ОМБ.
* Втілення обмежених машин Больцмана мовою ''[[Julia (мова програмування)|Julia]]'': https://github.com/cossio/RestrictedBoltzmannMachines.jl


[[Категорія:Архітектури нейронних мереж]]
[[Категорія:Архітектури нейронних мереж]]

Версія за 22:49, 4 серпня 2023

Схема обмеженої машини Больцмана з трьома видимими вузлами та чотирма прихованими вузлами (без упереджених вузлів).

Обме́жена маши́на Бо́льцмана (ОМБ, англ. restricted Boltzmann machine, RBM) — це породжувальна стохастична штучна нейронна мережа, здатна навчатися розподілу ймовірностей над набором її входів.

ОМБ було спочатку винайдено під назвою Гармоніум (англ. Harmonium — фісгармонія) Полом Смоленським[en] 1986 року,[1] а популярності вони набули після винайдення Джефрі Гінтоном зі співавторами у середині 2000-х років алгоритмів швидкого навчання для них. ОМБ знайшли застосування у зниженні розмірності,[2] класифікації,[3] колаборативній фільтрації,[4] навчанні ознак,[5] тематичному моделюванні[6] та навіть квантовій механіці багатьох тіл[en].[7][8] Їх можна тренувати як керованим, так і некерованим чином, залежно від завдання.

Як випливає з їхньої назви, ОМБ є варіантом машин Больцмана, з тим обмеженням, що їхні нейрони мусять формувати двочастковий граф: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші алгоритми тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм порівня́льної розбі́жності (англ. contrastive divergence) на основі градієнтного спуску.[9]

Обмежені машини Больцмана можливо також застосовувати в мережах глибокого навчання. Зокрема, глибокі мережі переконань можуть утворюватися «складанням» ОМБ та, можливо, тонким настроюванням отримуваної глибокої мережі за допомогою градієнтного спуску та зворотного поширення.[10]

Структура

Стандартний тип ОМБ має бінарновозначні (булеві) приховані та видимі вузли, і складається з матриці вагових коефіцієнтів розміру . Кожен ваговий елемент цієї матриці пов'язано зі з'єднанням між видимим (вхідним) вузлом та прихованим вузлом . Крім того, є вагові коефіцієнти упереджень (зміщення) для та для . З урахуванням цих ваг та упереджень, енергію конфігурації (пари булевих векторів) (v,h) визначають як

або, в матричному записі,

Ця функція енергії аналогічна функції енергії мережі Гопфілда. Як і з загальними машинами Больцмана, спільний розподіл імовірності для видимих та прихованих векторів визначають у термінах функції енергії наступним чином:[11]

де є статистичною сумою[en], визначеною як сума над усіма можливими конфігураціями, що можливо інтерпретувати як нормувальну сталу[en] для забезпечення того, щоби ймовірності давали в сумі 1. Відособлена ймовірність видимого вектора є сумою над усіма можливими конфігураціями прихованого шару,[11]

,

і навпаки. Оскільки графова структура в основі ОМБ двочасткова (тобто, без з'єднань усередині шарів), збудження прихованих вузлів є взаємно незалежними[en] для заданих збуджень видимих вузлів. І навпаки, збудження видимих вузлів є взаємно незалежними для заданих збуджень прихованих вузлів.[9] Тобто, для m видимих вузлів та n прихованих вузлів умовною ймовірністю конфігурації видимих вузлів v для заданої конфігурації прихованих вузлів h є

.

І навпаки, умовною ймовірністю h для заданої v є

.

Імовірності окремих збуджень задаються як

та

де позначає логістичну сигмоїду.

Незважаючи на те, що приховані вузли є бернуллієвими, видимі вузли обмеженої машини Больцмана можуть бути багатозначними.[прояснити: ком.] В такому випадку логістична функція для видимих вузлів замінюється нормованою експоненційною функцією (англ. Softmax function)

де K є кількістю дискретних значень, які мають видимі значення. Вони застосовуються в тематичному моделюванні[6] та рекомендаційних системах.[4]

Співвідношення з іншими моделями

Обмежені машини Больцмана є особливим випадком машин Больцмана та марковських випадкових полів.[12][13] Їхня графова модель відповідає моделі факторного аналізу.[14]

Алгоритм тренування

Обмежені машини Больцмана тренуються максимізувати добуток ймовірностей, призначених певному тренувальному наборові (матриця, кожен рядок якої розглядається як видимий вектор ),

або, рівноцінно, максимізувати математичне сподівання логарифмічної ймовірності тренувального зразка , вибраного випадково з :[12][13]

Алгоритмом, що найчастіше застосовують для тренування ОМБ, тобто для оптимізації матриці вагових коефіцієнтів , є алгоритм порівняльної розбіжності (ПР, англ. contrastive divergence, CD), що належить Гінтонові, первинно розроблений для тренування моделей добутку експертів[en] (англ. product of experts, PoE).[15][16] Цей алгоритм здійснює вибірку за Ґіббзом[en], і використовується всередині процедури градієнтного спуску (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.

Елементарну, однокрокову процедуру порівняльної розбіжності (ПР-1, англ. CD-1) для єдиного зразка може бути описано таким чином:

  1. Взяти тренувальний зразок v, обчислити ймовірності прихованих вузлів, та вибрати вектор прихованих збуджень h з цього розподілу ймовірності.
  2. Обчислити зовнішній добуток v та h, і назвати це позитивним градієнтом.
  3. Спираючись на h, вибрати відбудову видимих вузлів v', а потім перевибрати з неї приховані збудження h'. (крок вибірки за Ґіббзом)
  4. Обчислити зовнішній добуток v' та h', і назвати це негативним градієнтом.
  5. Покласти уточненням вагової матриці різницю позитивного та негативного градієнтів, помножену на певний темп навчання: .
  6. Уточнити упередження a та b аналогічно: , .

Практичну настанову з тренування ОМБ, написану Гінтоном, можна знайти на його домашній сторінці.[11]

Складена обмежена машина Больцмана

  • Відмінність між складеними обмеженими машинами Больцмана (англ. Stacked Restricted Boltzmann Machines) та ОМБ полягає в тому, що ОМБ має бічні з’єднання всередині шару, які заборонено для того, щоби зробити аналіз піддатливим. З іншого боку, складена больцманова машина складається з поєднання некерованої тришарової мережі з симетричними вагами та керованого тонко настроюваного верхнього шару для розпізнавання трьох класів.
  • Використання складеної больцманової машини призначене для розуміння природної мови, пошуку документів[en], створення зображень та класифікування. Ці функції тренуються некерованим попереднім тренуванням та/або керованим тонким настроюванням. На відміну від неорієнтованого симетричного верхнього шару, з двоспрямованим несиметричним шаром для підключення до ОМБ. Обмежені больцманові з'єднання є тришаровим з асиметричними вагами, а дві мережі об'єднано в одну.
  • Складена больцманова машина має спільні риси з ОМБ, нейрон для складеної больцманової машини це стохастичний бінарний нейрон Гопфілда, такий же, як і в обмеженій машині Больцмана. Енергію як для складеної больцманової машини, так і для ОМБ, задають ґіббзовою мірою ймовірності . Процес тренування обмежених больцманових машин подібний до ОМБ. Обмежені больцманові машини тренують пошарово та наближують стан рівноваги 3-сегментним проходом, не виконуючи зворотного поширення. Обмежені больцманові машини використовують як кероване, так і некероване тренування на різних ОБМ для попереднього тренування для класифікування та розпізнавання. Тренування використовує порівняльну розбіжність з ґіббзовим вибиранням: Δwij = e*(pij - p'ij)
  • Перевага обмеженої больцманової машини полягає у виконанні нелінійного перетворення, тому її легко розширити, що може дати ієрархічний шар ознак. Слабкість полягає у складності обчислень цілочислових та дійснозначних нейронів. Вона не слідує градієнтові будь-якої функції, тож наближення порівняльної розбіжності до максимальної правдоподібності є імпровізованим.[11]

Література

  • Fischer, Asja; Igel, Christian (2012), An Introduction to Restricted Boltzmann Machines, Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, Lecture Notes in Computer Science (англ.), Berlin, Heidelberg: Springer Berlin Heidelberg, т. 7441, с. 14—36, doi:10.1007/978-3-642-33275-3_2, ISBN 978-3-642-33274-6

Див. також

Примітки

  1. Smolensky, Paul (1986). Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory (PDF). У Rumelhart, David E.; McLelland, James L. (ред.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. с. 194–281. ISBN 0-262-68053-X. Архів оригіналу (PDF) за 14 липня 2023. Процитовано 13 січня 2016. (англ.)
  2. Hinton, G. E.; Salakhutdinov, R. R. (2006). Reducing the Dimensionality of Data with Neural Networks (PDF). Science. 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773. Архів оригіналу (PDF) за 23 грудня 2015. Процитовано 13 січня 2016. (англ.)
  3. Larochelle, H.; Bengio, Y. (2008). Classification using discriminative restricted Boltzmann machines (PDF). Proceedings of the 25th international conference on Machine learning - ICML '08. с. 536. doi:10.1145/1390156.1390224. ISBN 9781605582054. Архів оригіналу (PDF) за 13 жовтня 2017. Процитовано 13 січня 2016. (англ.)
  4. а б Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Restricted Boltzmann machines for collaborative filtering. Proceedings of the 24th international conference on Machine learning - ICML '07. с. 791. doi:10.1145/1273496.1273596. ISBN 9781595937933. (англ.)
  5. Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). International Conference on Artificial Intelligence and Statistics (AISTATS). Архів оригіналу (PDF) за 20 грудня 2014. Процитовано 13 січня 2016. (англ.)
  6. а б Ruslan Salakhutdinov and Geoffrey Hinton (2010). Replicated softmax: an undirected topic model [Архівовано 25 травня 2012 у Wayback Machine.]. Neural Information Processing Systems[en] 23. (англ.)
  7. Carleo, Giuseppe; Troyer, Matthias (10 лютого 2017). Solving the quantum many-body problem with artificial neural networks. Science (англ.). 355 (6325): 602—606. arXiv:1606.02318. Bibcode:2017Sci...355..602C. doi:10.1126/science.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
  8. Melko, Roger G.; Carleo, Giuseppe; Carrasquilla, Juan; Cirac, J. Ignacio (September 2019). Restricted Boltzmann machines in quantum physics. Nature Physics (англ.). 15 (9): 887—892. Bibcode:2019NatPh..15..887M. doi:10.1038/s41567-019-0545-1. ISSN 1745-2481.
  9. а б Miguel Á. Carreira-Perpiñán and Geoffrey Hinton (2005). On contrastive divergence learning. Artificial Intelligence and Statistics. (англ.)
  10. Hinton, G. (2009). Deep belief networks. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947. (англ.)
  11. а б в г Geoffrey Hinton (2010). A Practical Guide to Training Restricted Boltzmann Machines [Архівовано 25 вересня 2014 у Wayback Machine.]. UTML TR 2010—003, University of Toronto. (англ.)
  12. а б Sutskever, Ilya; Tieleman, Tijmen (2010). On the convergence properties of contrastive divergence (PDF). Proc. 13th Int'l Conf. On AI and Statistics (AISTATS). Архів оригіналу (PDF) за 10 червня 2015. (англ.)
  13. а б Asja Fischer and Christian Igel. Training Restricted Boltzmann Machines: An Introduction [Архівовано 10 червня 2015 у Wayback Machine.]. Pattern Recognition 47, pp. 25-39, 2014 (англ.)
  14. María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). Geometry of the restricted Boltzmann machine. Algebraic Methods in Statistics and Probability. American Mathematical Society. 516. arXiv:0908.4425. Bibcode:2009arXiv0908.4425A. (англ.)
  15. Geoffrey Hinton (1999). Products of Experts [Архівовано 24 вересня 2015 у Wayback Machine.]. ICANN 1999. (англ.)
  16. Hinton, G. E. (2002). Training Products of Experts by Minimizing Contrastive Divergence (PDF). Neural Computation. 14 (8): 1771—1800. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505. Архів accessdate = 13 січня 2016 оригіналу за 3 березня 2016. (англ.)

Посилання