Сворачивание холста: перенос обучения в художественной классификации

Введение

Растущая популярность коллекций и торговых площадок цифрового искусства вызвала растущую потребность в управлении, анализе и классификации больших объемов данных с точки зрения абстрактных эстетических концепций, таких как пространство, форма, текстура и тон, что делает настоятельно необходимой разработку надежных моделей классификации произведений искусства. . Такие модели являются не только инструментами для архивариусов, дилеров и галеристов; они также могут служить катализатором для творчества.

Вне зависимости от конкретного приложения задача остается неизменной: механически выделить характерные черты конкретных произведений искусства. Здесь нейронные сети становятся полезными благодаря их способности выявлять закономерности с помощью вычислительной статистики.

В моей работе по трансферному обучению для классификации произведений искусства я обнаружил, что трансферное обучение в конкретной предметной области может быть особенно ценным. Когда я сравнил модель классификации художников, предварительно обученную более общей задаче, а именно классификации изображений в ImageNet, с моделью, предварительно обученной классификации стилей живописи, я увидел скачок точности на 8,6%. Это подчеркивает потенциальные преимущества использования специализированных моделей для трансферного обучения, которые могут повысить производительность модели, несмотря на ограниченный размер выборки из-за относительно небольшого размера коллекций цифрового искусства.

Хотя это открытие указывает на многообещающие направления для дальнейших исследований, я надеюсь углубиться и поделиться последующими выводами, предоставив репозиторий, описывающий мой процесс. На данный момент этот пост служит отправной точкой для изучения существующих исследований.

Трансферное обучение в художественной классификации

В своей основополагающей статье о моделях классификации произведений искусства Салех и Эльгаммаль (2015) предложили три задачи, основанные на обучении, которые с тех пор стали стандартными для разработки моделей классификации живописи: определение (1) художника данной картины, ее (2) жанра и (3) стиль.

С 2015 года наблюдается распространение моделей сверточных нейронных сетей (CNN), обученных этим трем задачам. Достижения таких моделей отчасти обусловлены огромными наборами данных с ручными метками, такими как ImageNet, где хранится более 15 миллионов изображений с высоким разрешением, каждое из которых тщательно маркируется вручную. Точно так же предварительно обученные модели, такие как CaffeNet, вариант AlexNet, получили признание за их использование в обучении и точной настройке моделей классификации произведений искусства. Эта стратегия использования функций, захваченных уже существующей моделью, для ускорения разработки новой модели для другой задачи называется трансферным обучением. Трансферное обучение становится особенно полезным, если учесть, что производительность моделей классификации произведений искусства сдерживается гораздо меньшим размером коллекций цифровых произведений искусства, на которых они обучаются, по сравнению с более крупными наборами данных, такими как ImageNet.

Среди различных исследований выделяется исследование Zhao et al (2021). Их результаты показывают, что модели, предварительно обученные в ImageNet, дают наиболее благоприятные результаты для классификации произведений искусства. Примечательно, что EfficientNet показала высокие результаты в задачах классификации исполнителей и жанров. Их результаты выявили четкую дифференциацию таких стилей, как абстрактный экспрессионизм, но наложение таких стилей, как барокко, реализм и романтизм, часто приводило к путанице в модели. И хотя абстрактный, пейзажный и портретный жанры были легко узнаваемы, с обнаженной натурой модель боролась.

Движимый любопытством, я попытался воспроизвести эксперимент ученых, используя набор данных WikiArts, уделив особое внимание задаче классификации художников. Представленный Салех и Эльгаммаль в 2015 году набор данных WikiArts с тех пор стал основополагающим ресурсом в исследованиях по классификации произведений искусства. В этой общедоступной коллекции данных содержится 81 449 картин изобразительного искусства, созданных более чем тысячей художников за пятнадцать столетий. Несмотря на то, что его масштабы бледнеют по сравнению с гигантом ImageNet, это сокровище среди немногих свободно доступных коллекций цифрового искусства. В наборе данных WikiArts три отдельных помеченных вручную подмножества посвящены задачам классификации художников, стилей и жанров, каждое из которых разделено на отдельные обучающие и тестовые наборы данных.

Предварительное обучение на ImageNet

Заимствуя методы, использованные Zhao et al (2021), я отслеживал производительность модели в каждую эпоху, достигая высшей точки оценки точности после 160 эпох. Вслед за авторами я тоже остановил свой выбор на EfficientNet_B3. Каждая модель была настроена с помощью Adam, дополненной регуляризацией L2. Приняв их методы увеличения, я применил RandomResizedCrop, RandomHorizontalFlip и преобразовал изображения библиотеки импорта Python (PIL) в тензоры. Во время обучения я обнаружил, что EfficientNet_B3 для классификации художников продемонстрировал впечатляющую точность 92,1% во время обучения. Однако на тестовом наборе этот показатель упал до 81,8%.

Изучив девять картин с наибольшими потерями, стало очевидно, что модель боролась с картинами с определенными фигуративными элементами, такими как цветы, деревья и пейзажи. Это наблюдение предполагает, что если один или несколько художников преимущественно рисуют такие фигуры, их присутствие на картине произвольно искажает вывод модели в сторону этих художников.

Просмотр матрицы путаницы и карты кластера t-SNE, показанной ниже, дает более широкое представление о проблемах модели. Например, неудивительно, что таких художников, как Дега и Ренуар, иногда смешивают, учитывая, что оба они были основополагающими фигурами, символизирующими импрессионистское движение. Точно так же путаница между Хасаном, Моне и Писсарро, вероятно, коренится в их общей связи с импрессионизмом. Однако другие ошибочные классификации были менее интуитивными. Например, модель путает работы Дали с работами Пикассо и Рериха, возможно, отражая влияние, которое Дали черпал как из кубизма, так и из символизма. Интересно, что работы Ильи Репина ошибочно принимают не только за его современника-реалиста Бориса Кустодиева, но и за Сарджента (американского импрессиониста и реалиста) или даже Рембрандта (голландского мастера эпохи Высокого Возрождения/барокко).

Эта путаница между стилями вызвала гипотезу: может ли точность модели выиграть от переноса изученных особенностей и весов модели классификации стилей в модель классификации исполнителей? Потенциально такой перенос мог бы сместить фокус модели с явных фигуративных элементов на более нюансированные, мелкие стилистические детали.

Предварительное обучение классификации стилей

Модель EfficientNet_B3 изначально была обучена классификации стилей с использованием того же подхода, что и исходная модель классификации произведений искусства, с достижением максимальной точности обучения 89,4%. Чтобы использовать трансферное обучение, тело этой модели стиля было отделено от ее оригинальной головы и соединено с новой, необученной головой, предназначенной для задачи классификации художников. Эта новая интегрированная модель, основа которой была предварительно обучена задаче классификации стилей, затем была подвергнута ранее описанному процессу обучения. Примечательно, что он достиг максимальной точности обучения 97,4%. При оценке точность теста составила 90,4%, что на 8,6% больше по сравнению с исходной моделью классификации исполнителей.

После предварительной подготовки по классификации стилей картины с наибольшими потерями теперь демонстрируют более разнообразный набор фигуративного содержания. Матрица путаницы имеет меньше проблемных мест, и параллельное сравнение карт кластеров двух моделей иллюстрирует более четкое различие между художниками. Одной из постоянных проблем является перекрывающееся узнавание Пикассо и Дали, видимое в виде неоново-зеленых и коричневых кластеров в визуализации t-SNE.

Рассматривая картины с высшими потерями, кажется, что путаница модели в равной степени коренится в стилистических нюансах и фигуративном содержании. Например, «Поцелуй музы» Сезанна, романтическая репродукция неоклассического шедевра Феликса Фрилье, ошибочно приписывается Дали, возможно, из-за близости последнего к обоим стилям. Дальнейшие недоумения возникают с такими произведениями, как «Единорог (неоконченный)» Дали, где отголоски конного портфолио Дега могут сливаться с собственным уникальным использованием Дали средств массовой информации — угля, пастели и масла — напоминающих Дега.

В некоторых случаях стилистические совпадения более предсказуемы. Кустодиева «Девушка. Эскиз», пропитанный влиянием Ильи Репина, поддается неправильной атрибуции, особенно если рассматривать его рядом с «Портретом Нади Репиной» Репина. Точно так же спокойная горная картина Сарджента в «Энгельсбурге» очень напоминает реалистические пейзажи, характерные для Шишкина, что делает ошибочную классификацию неудивительной. Кроме того, неправильное определение «Тумана» Моне как Писсарро, вероятно, связано с тем, что оба художника связаны с импрессионистским движением.

Тем не менее, пейзажи и мотивы на открытом воздухе продолжают оставаться основными камнями преткновения модели. «Крестьяне в поле» Писсарро ошибочно приписывают Ивану Айвазовскому; заметное несоответствие, учитывая, что, хотя первое может вызывать воспоминания о таких произведениях, как «Закат в Малороссии» Айвазовского, квинтэссенция различий между элементами романтизма и импрессионизма в работах Айвазовского и Писсарро, соответственно, затмевается присутствием пейзажа. в произведении Писсарро. Точно так же «Иван Лесник» Рериха с его густым лесным фоном ошибочно принимается за одно из творений Репина. Тот факт, что «Le Grand Noyer au printemps» Писсарро ошибочно принимают за работу Рериха, является еще одним примером этой проблемы. Это предсказание, кажется, игнорирует тот факт, что фрагментарная масляная техника Писсарро резко контрастирует с использованием Рерихом четких границ и пигментов мокрого темпера. Тем не менее, некоторые из этих ошибочных идентификаций, например, «Урожай гороха» Писсарро, являющийся работой Дали, могут быть связаны с подлинными стилистическими параллелями, учитывая, что произведение действительно имеет сходство с пейзажами Дали 1920-х годов, такими как «Оливковые деревья. Пейзаж в Кадакесе» или «Огород Лланера».

Заключение

Улучшения, которые я внес в модель классификации художников, обещают развертывание в рекомендательных системах, помогающих пользователям идентифицировать произведения искусства, похожие на конкретную картину, во многом подобно системе, протестированной Чжао и Эль в 2021 году. В будущих итерациях точность модель может быть дополнительно улучшена за счет учета различий стиля в разные исторические периоды искусства, черпая вдохновение из Elgammal et al 2018. Это может иметь решающее значение для отличия работ более поздних художников, таких как Дали, от работ Сезанна или Писсарро.

Тем не менее, учитывая спорадические неправильные атрибуции, которые мы обсуждали, для пользователей было бы важно понять логику, лежащую в основе каждой рекомендации. А именно, более глубокое погружение во внутреннюю работу модели может быть проведено с использованием комбинации визуальных подходов, таких как активация, фильтрация и визуализация признаков, карты активации классов и карты значимости. Кроме того, аналитические методы, такие как SHAP, могут обеспечить более интерпретируемое понимание процесса принятия решений в рамках модели. Распаковка этих визуальных и аналитических методов будет иметь решающее значение для определения конкретных функций и слоев, которые преимущественно формируют прогнозы модели.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science