Я обучаю CaffeNet (точнее модель Cifar10 для классификации двух классов) модель. Теперь модель готова к обнаружению. Для тестирования модели с одним изображением я использую test_predict_imagenet.cpp
. Я не проверял, насколько быстро код может работать для изображения 640 x 480. Моя цель - 5~10 кадров/сек, это просто хорошо для автономного обнаружения. Я понимаю, что мне нужно реализовать обнаружение нескольких размеров (т.е. что-то вроде того, что мы делаем в распознавании лиц, исходный размер изображения изменяется для разных меньших размеров), чтобы я не пропускал пешехода в каждом кадре.
Согласно этому статье, они используют размер изображения 64 x 128 для обучения, а обнаружение занимает 3 мс/окно. а для 100 окон/изображения требуется 300 мс/кадр. Не уверен, что они реализуют подход обнаружения нескольких размеров. Если реализован мультиразмер, это займет гораздо больше времени.
На данный момент у меня есть только знания о реализации метода test_predict_imagenet.cpp
для обнаружения нескольких размеров. Я знаю, что это будет очень медленно. Есть ли более эффективный способ обнаружения с использованием модели CaffeNet? Моя цель просто хороша для скорости 5 ~ 10 кадров в секунду. Спасибо