Матриця Гессе

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Матриця Гессеквадратна матриця елементами якої є часткові похідні деякої функції. Поняття було введене Людвігом Отто Гессе (1844), який використовував іншу назву. Термін матриця Гессе був введений Джеймсом Джозефом Сильвестром.

Визначення[ред.ред. код]

Формально, нехай дано дійсну функцію від n змінних:

f(x_1, x_2, \dots, x_n),\,\!

якщо у функції f існують всі похідні другого порядку, то можна визначити матрицю Гессе для цієї функції:

H(f)_{ij}(x) =\frac{\partial^2 f}{\partial x_i\,\partial x_j}\,\!

де x = (x_1, x_2, ..., x_n), тобто H(f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}.

Визначник цієї матриці називається визначником Гессе, або гессіаном.

Значення матриці Гессе пояснюється її появою у формулі Тейлора:

y=f(\mathbf{x}+\Delta\mathbf{x})\approx f(\mathbf{x}) + J(\mathbf{x})\Delta \mathbf{x} +\frac{1}{2} \Delta\mathbf{x}^\mathrm{T} H(\mathbf{x}) \Delta\mathbf{x}

Матриці Гессе використовуються в задачах оптимізації методом Ньютона. Повне обчислення матриці Гессе може бути досить складним, тому були розроблені квазіньютонівські алгоритми, засновані на наближених виразах для матриці Гессе. Найвідоміший з них — алгоритм Бройдена - Флетчера - Гольдфарба - Шанно.

Симетрія матриці Гессе[ред.ред. код]

Змішані похідні функції f — це елементи матриці Гессе, що стоять не на головній діагоналі. Якщо вони неперервні, то порядок диференціювання не важливий:

\frac {\partial}{\partial x} \left( \frac { \partial f }{ \partial y} \right) = \frac {\partial}{\partial y} \left( \frac { \partial f }{ \partial x} \right).

Це можна також записати як

 f_{yx} = f_{xy}. \,

В цьому випадку матриця Гессе є симетричною.

Критичні точки функції[ред.ред. код]

Якщо градієнт f (її векторна похідна) рівний нулю в деякій точці x_0, то ця точка називається критичною.

Обрамлена матриця Гессе[ред.ред. код]

У випадку оптимізації з додатковими умовами виникає також поняття обрамленої матриці Гессе. Нехай знову маємо функцію:

f(x_1, x_2, \dots, x_n),

але тепер також розглянемо умови:

g_i (x_1, x_2, \dots, x_n) = 0, 1 \leqslant i \leqslant m, \, m < n

При оптимізації функції f з додатковими умовами обрамлена матриця Гессе має вигляд:

H(f,g) = \begin{bmatrix} 0 & \cdots & 0 & \frac{\partial g_1}{\partial x_1} & \frac{\partial g_1}{\partial x_2} & \cdots & \frac{\partial g_1}{\partial x_n} \\ \\ \vdots & \ddots & \vdots & \vdots & \vdots & \ddots & \vdots \\ \\ 0 & \cdots & 0 & \frac{\partial g_m}{\partial x_1} & \frac{\partial g_m}{\partial x_2} & \cdots & \frac{\partial g_m}{\partial x_n} \\ \\ \frac{\partial g_1}{\partial x_1} & \cdots & \frac{\partial g_m}{\partial x_1} & \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial g_1}{\partial x_2} & \cdots & \frac{\partial g_m}{\partial x_2} & \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \ddots & \vdots & \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial g_1}{\partial x_n} & \cdots & \frac{\partial g_m}{\partial x_n} & \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

Для даної матриці можна сформувати різні головні мінори. Позначимо  | H_i(f,g)|,\, 2 \leqslant i \leqslant n — головний мінор матриці, для якого останнім елементом на головній діагоналі є \frac{\partial^2 f}{\partial x_i^2}. Тоді можна сформувати достатні умови екстремуму для функції при виконанні обмежень.

Функція буде мати максимум при виконанні умов, якщо знаки послідовних n - m мінорів | H_i(f,g)|, m+1 \leqslant i \leqslant n, будуть чергуватися, при чому знак | H_i(f,g)| буде рівний (-1)^{m+1}.

Функція буде мати мінімум при виконанні умов, всі послідовні n - m мінорів | H_i(f,g)|, m+1 \leqslant i \leqslant n, мають один знак, а саме (-1)^m.

Варіації і узагальнення[ред.ред. код]

Якщо f — векторзначна функція, тобто

f = (f_1, f_2, \dots f_n),

то її другі часткові похідні утворюють не матрицю, а тензор рангу n+1.

Література[ред.ред. код]

  • Кудрявцев Л.Д. «Краткий курс математического анализа. Т.2. Дифференциальное и интегральное исчисления функций многих переменных. Гармонический анализ», ФИЗМАТЛИТ, 2002, — 424 с.
  • Chiang, Alpha C., Fundamental Methods of Mathematical Economics, third edition, McGraw-Hill, 1984.
  • Nocedal, Jorge; Wright, Stephen J. (2006), Numerical Optimization (2nd ed.), Berlin, New York: Springer-Verlag, ISBN 978-0-387-30303-1