Задача 4
Пусть G(V,E) — некоторый ориентированный граф, являющийся объектом сложной структуры y. Здесь y является графом морфологического разбора некоторого предложения (граф зависимостей слов в предложении ограниченной длины). Известно, что оптимальным графом, если таковой существует, является деревом (аналогия с деревом разбора).
a:X→Y
Пусть M — матрица смежности взвешенного графа G. mij≠0 если есть дуга из i-го слова в j-е. Тогда критерием того, что G — дерево является
- ∃k:∑j=1l[Mkj≠0]=0 — то есть есть корень дерева
- ∑j=1l[Mij≠0]≤1∀i∈1,2…l:i≠k — то есть все остальные вершины имеют ровно одного родителя
При этом есть еще следующее соображение: если в столбце один вес сильно перевешивает все остальные, это лучше, чем если есть веса одинакового масштаба, так как в некотором смысле в первом случае мы сильно уверены, что перевешивающий вес является родителем.
Предлагается использовать функцию потерь, основанную на модифицированном расстояние Хэмминга, определенного для матриц. Пусть l — максимальная длина предложения, то есть M∈Rl×l, пусть f:Rl×l→Rl×l — функция, которая по матрице M получает M∗ — матрицу смежности некоторого дерева получающегося следующим образом
- k=argmini∈[1,l]maxj∈[1,l]∣mij∣ — находим столбец с минимальными весами, он будет корнем.
- В M∗ k-й столбец состоит из нулей, а все остальные состоят из нулей кроме максимального по модулю значения в столбце.
Тогда функцией ошибки будет
L(x,a)=ρH(a(x),f(a(x))
Где ρH — модифицированное расстояние Хэмминга, где в месте замены веса на ноль расстояние увеличивается на квадрат заменяемого веса. Тогда постановка задачи заключается
в
L(X,a(θ))→minθ
При этом понятно, что функция ошибки является непрерывно дифференцируемой.