Почему так сложно инверсировать 3D-функции (по состоянию на ноябрь 2022 г.)

NeRF и их последующая последующая литература представили сдвиг парадигмы в мире структуры из движения (SfM). Впервые у нас есть возможность инвертировать функцию рендеринга 3D->2D для сложных сцен. Исторически сложилось так, что неявные SDF и явные представления поверхности в основном ограничивались представлениями одного объекта.

NeRF традиционно устанавливаются один раз за сцену. Это дорого и неэффективно, а это означает, что мы не можем создавать модели, которые действительно понимают окружающий мир. Чайник остается чайником независимо от того, в какой сцене он появляется, и возможность мобильных устройств понять это в 3D означала бы огромный скачок.

В настоящее время проводится много очень интересных исследований, чтобы улучшить это с двумя основными ветвями:

  • Генеративные модели в стиле Гауди, сводящие целые сцены к скрытым кодам (за счет очень высокой степени сжатия и разрешения 128x128) [1] [2]
  • Стиль TransNerf — устраняет необходимость создавать настоящее 3D-состояние, а вместо этого просто грамотно деформирует и преобразует входные изображения [3]

На момент написания статьи еще не было ответа, как мы можем масштабировать это до 3D-сцен «человеческого уровня» с высоким разрешением.

Нужна ли нам новая формулировка проблемы?

В мире машинного обучения мы привыкли создавать сцены с помощью генеративных моделей, моделирующих либо P(X,Y), либо марковский процесс шумоподавления. Они с большим успехом использовались для преобразования текста в изображение, изображения в изображение и генерации текста.

Тем не менее, применительно к 3D-сценам, как с Gaudi[1], так и с GSN[4], эти модели с трудом улавливают детали с высоким разрешением.

Интуитивно это имеет смысл. Большинство генеративных задач, изученных в литературе, по своей сути являются вероятностными — и сосредоточены на создании «правдоподобных» результатов для скрытого ввода или подсказки:

Однако проблема создания 3D-сцен из 2D-проекций (изображений) — это инверсия функций — есть один правильный ответ. Я считаю, что именно поэтому сжатые представления скрытого кода могут решить только половину проблемы. Они позволяют нам добавить вероятностный априор, заполняя то, что мы не можем видеть, статистической информацией в обмен на удаление нашей способности итеративно инвертировать.

Примечание. Я написал небольшую статью о том, что эта инверсия функций частично разделяет проблемное пространство с компьютерной томографией.

Должна ли инверсия трехмерного состояния быть авторегрессивной?

Недавно мое внимание привлекла проблема, представленная на Дне искусственного интеллекта Теслы в 2022 году. Стек беспилотного вождения Tesla должен решать структуру полосы движения точно по заданному входному изображению. Они подходят к этому, разбивая проблему на токенизированный язык, который затем можно предсказать авторегрессивно:

Такой образ мышления добавляет два важных компонента:

  1. Умение составлять подпонятия. Вместо одного состояния у нас есть составные токены дорожек.
  2. Возможность итеративного прогнозирования состояния решения — инверсию можно уточнять поэтапно.

Я полагаю, что оба они легко переносятся в 3D-сцены, и оба стали возможными благодаря работе Anpei Chen над TensorRF [5], которая разлагает 3D-пространство на серию векторов:

Это дает нам возможность:

  1. Объединяйте3D-подкомпоненты в общее поле, просто индексируя
  2. Авторегрессионное прогнозирование: трехмерные подкомпоненты и концепции могут быть представлены в виде серий одномерных или двумерных токенов-векторов, подходящих для LLM и преобразователей.

Я думаю, что вполне возможно, что когда мы решим обе эти проблемы, мы действительно будем очень близки к одиночным моделям, которые действительно понимают трехмерное состояние, особенно учитывая текущую работу над векторно-квантованными кодовыми книгами для трехмерного сжатия.

Nb: критический компонент, который я здесь не затронул, — это то, как (и где!) мы находим большой хорошо составленный набор данных, чтобы изучить это. Кажется, что то, что доступно прямо сейчас в виде естественных данных, довольно скудно…

Приветствуются комментарии, мысли, исправления и предложения. Обратитесь!

Я старший научный сотрудник Tractable. Мои основные интересы связаны с представлением сцен, пониманием перекрестных изображений и обеспечением работы CV в среде с очень низким отношением сигнал/шум. Вы можете найти меня и в LinkedIn!

Цитаты

[1] Баутиста, М.А., Го, П., Абнар, С., Тэлботт, В., Тошев, А., Чен, З., … Сасскинд, Дж. (2022). GAUDI: нейронный архитектор для создания иммерсивных 3D-сцен. doi: 10.48550/ARXIV.2207.13751

[2] Ван, Д., Цуй, X., Салкудин, С., и Ван, З. Дж. (2022). Обобщаемые поля нейронного излучения для синтеза новых представлений с помощью Transformer. doi: 10.48550/ARXIV.2206.05375

[3] Ребейн, Д., Мэтьюз, М.Дж., Йи, К.М., Шарма, Г., Лагун, Д., и Тальясаччи, А. (2022). Внимание превосходит конкатенацию для формирования нейронных полей. doi: 10.48550/ARXIV.2209.10684

[4] Де Врис, Т., Баутиста, М. А., Сривастава, Н., Тейлор, Г. В., и Сасскинд, Дж. М. (2021). Генерация сцены без ограничений с локально обусловленными полями излучения. DOI: 10.48550/ARXIV.2104.00670

[5] Чен А., Сюй З., Гейгер А., Ю Дж. и Су Х. (2022). TensoRF: тензорные поля сияния. doi: 10.48550/ARXIV.2203.09517