Я думал о применении grid-lstm к изображению. Из его оригинальной статьи сказано, что:
Обратите внимание, что блок не получает отдельного представления данных. Точка данных проецируется в сеть через пару входных скрытых векторов и векторов памяти вдоль одной из сторон сетки.
Насколько я понимаю, это означает, что в отличие от других вариантов lstm, таких как многомерный lstm, ввод которого представляет собой конкатенацию *[все предыдущие скрытые вектора, I*x], сетка lstm не получает точку данных (скажем, значения RGB) в качестве входных данных. Вместо этого эти функции RGB напрямую используются как скрытые состояния/состояния памяти одной стороны grid-lstm. Это правильно?