Изучение глобальных моделей NeRF

Почему так сложно инверсировать 3D-функции (по состоянию на ноябрь 2022 г.)

NeRF и их последующая последующая литература представили сдвиг парадигмы в мире структуры из движения (SfM). Впервые у нас есть возможность инвертировать функцию рендеринга 3D->2D для сложных сцен. Исторически сложилось так, что неявные SDF и явные представления поверхности в основном ограничивались представлениями одного объекта.

NeRF традиционно устанавливаются один раз за сцену. Это дорого и неэффективно, а это означает, что мы не можем создавать модели, которые действительно понимают окружающий мир. Чайник остается чайником независимо от того, в какой сцене он появляется, и возможность мобильных устройств понять это в 3D означала бы огромный скачок.

В настоящее время проводится много очень интересных исследований, чтобы улучшить это с двумя основными ветвями:

Генеративные модели в стиле Гауди, сводящие целые сцены к скрытым кодам (за счет очень высокой степени сжатия и разрешения 128x128) [1] [2]
Стиль TransNerf — устраняет необходимость создавать настоящее 3D-состояние, а вместо этого просто грамотно деформирует и преобразует входные изображения [3]

На момент написания статьи еще не было ответа, как мы можем масштабировать это до 3D-сцен «человеческого уровня» с высоким разрешением.

Нужна ли нам новая формулировка проблемы?

В мире машинного обучения мы привыкли создавать сцены с помощью генеративных моделей, моделирующих либо P(X,Y), либо марковский процесс шумоподавления. Они с большим успехом использовались для преобразования текста в изображение, изображения в изображение и генерации текста.

Тем не менее, применительно к 3D-сценам, как с Gaudi[1], так и с GSN[4], эти модели с трудом улавливают детали с высоким разрешением.

Интуитивно это имеет смысл. Большинство генеративных задач, изученных в литературе, по своей сути являются вероятностными — и сосредоточены на создании «правдоподобных» результатов для скрытого ввода или подсказки:

Однако проблема создания 3D-сцен из 2D-проекций (изображений) — это инверсия функций — есть один правильный ответ. Я считаю, что именно поэтому сжатые представления скрытого кода могут решить только половину проблемы. Они позволяют нам добавить вероятностный априор, заполняя то, что мы не можем видеть, статистической информацией в обмен на удаление нашей способности итеративно инвертировать.

Примечание. Я написал небольшую статью о том, что эта инверсия функций частично разделяет проблемное пространство с компьютерной томографией.

Должна ли инверсия трехмерного состояния быть авторегрессивной?

Недавно мое внимание привлекла проблема, представленная на Дне искусственного интеллекта Теслы в 2022 году. Стек беспилотного вождения Tesla должен решать структуру полосы движения точно по заданному входному изображению. Они подходят к этому, разбивая проблему на токенизированный язык, который затем можно предсказать авторегрессивно:

Такой образ мышления добавляет два важных компонента:

Умение составлять подпонятия. Вместо одного состояния у нас есть составные токены дорожек.
Возможность итеративного прогнозирования состояния решения — инверсию можно уточнять поэтапно.

Я полагаю, что оба они легко переносятся в 3D-сцены, и оба стали возможными благодаря работе Anpei Chen над TensorRF [5], которая разлагает 3D-пространство на серию векторов:

Это дает нам возможность:

Объединяйте3D-подкомпоненты в общее поле, просто индексируя
Авторегрессионное прогнозирование: трехмерные подкомпоненты и концепции могут быть представлены в виде серий одномерных или двумерных токенов-векторов, подходящих для LLM и преобразователей.

Я думаю, что вполне возможно, что когда мы решим обе эти проблемы, мы действительно будем очень близки к одиночным моделям, которые действительно понимают трехмерное состояние, особенно учитывая текущую работу над векторно-квантованными кодовыми книгами для трехмерного сжатия.

Nb: критический компонент, который я здесь не затронул, — это то, как (и где!) мы находим большой хорошо составленный набор данных, чтобы изучить это. Кажется, что то, что доступно прямо сейчас в виде естественных данных, довольно скудно…

Приветствуются комментарии, мысли, исправления и предложения. Обратитесь!

Я старший научный сотрудник Tractable. Мои основные интересы связаны с представлением сцен, пониманием перекрестных изображений и обеспечением работы CV в среде с очень низким отношением сигнал/шум. Вы можете найти меня и в LinkedIn!

Цитаты

[1] Баутиста, М.А., Го, П., Абнар, С., Тэлботт, В., Тошев, А., Чен, З., … Сасскинд, Дж. (2022). GAUDI: нейронный архитектор для создания иммерсивных 3D-сцен. doi: 10.48550/ARXIV.2207.13751

[2] Ван, Д., Цуй, X., Салкудин, С., и Ван, З. Дж. (2022). Обобщаемые поля нейронного излучения для синтеза новых представлений с помощью Transformer. doi: 10.48550/ARXIV.2206.05375

[3] Ребейн, Д., Мэтьюз, М.Дж., Йи, К.М., Шарма, Г., Лагун, Д., и Тальясаччи, А. (2022). Внимание превосходит конкатенацию для формирования нейронных полей. doi: 10.48550/ARXIV.2209.10684

[4] Де Врис, Т., Баутиста, М. А., Сривастава, Н., Тейлор, Г. В., и Сасскинд, Дж. М. (2021). Генерация сцены без ограничений с локально обусловленными полями излучения. DOI: 10.48550/ARXIV.2104.00670

[5] Чен А., Сюй З., Гейгер А., Ю Дж. и Су Х. (2022). TensoRF: тензорные поля сияния. doi: 10.48550/ARXIV.2203.09517

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP