Я использую текущую предварительную версию FOTT, когда работаю над обучением пользовательской формы. Я заметил, что способность анализировать макет в некоторых случаях затрудняет определение отметок выбора. Я обучаю модель для использования со стандартной формой правительства США (MCSA-5876), поэтому у нас нет возможности изменить макет формы. Изображения загружаются в формате jpg, что является требованием этого проекта.
- Флажки (квадрат) вроде бы опознаются нормально
- Параметры радио работают большую часть времени, если параметр не установлен и изображение не искажается вообще.
- Радиоприемники, написанные от руки и заполненные знаком X, работают в большинстве случаев.
- Радиоприемники, поступающие из заполненного PDF-файла с точкой в середине, чаще всего выходят из строя. Обратите внимание, что они отправляются нам в формате jpg, а не pdf.
Я попытался провести анализ некоторых заполненных PDF-файлов для тестирования, но результаты для них даже хуже, чем для jpg, в том, что касается выбора. Я также пробовал создавать свои собственные макеты форм и сохранять их в формате jpg с высоким разрешением, но они получили те же результаты, что и клиентские.
Я ищу предложения по повышению точности selectionMark. В настоящее время я работаю над настройкой обучающего набора для модели, содержащей более 20 изображений. Мне также интересно, есть ли способ изменить первоначальный анализ и указать ограничивающие рамки для выборок. Будет ли работать ручное редактирование файлов * .ocr.json в хранилище BLOB-объектов? Но определенно не идеальное решение.
Я прикрепил изображение, показывающее проблему, с которой я столкнулся. Радиоприемники, такие как MD, DO, Physician Assistant и т. Д., Не имеют ограничивающих рамок. Другие, такие как медсестра с продвинутой практикой и другой практикующий врач, делают. Если анализатор не может найти их для разметки, он не найдет их при анализе нового документа с использованием обученной модели. Таким образом, значение возвращается как null.
TIA Rich