В огромной цифровой вселенной данные являются источником жизненной силы, которая стимулирует принятие решений и инновации. Но не все данные одинаковы. Неструктурированные данные в изображениях и документах часто содержат огромное количество информации, которую сложно извлечь и проанализировать.
Откройте для себя Unstructured.io, мощный инструмент для извлечения и эффективного преобразования структурированных данных. Благодаря шестнадцати готовым коннекторам API может легко интегрироваться с различными источниками данных, включая AWS S3, GitHub, Google Cloud Storage и другие.
В этом руководстве мы расскажем о преимуществах использования модуля неструктурированного API и соединителя, проведем вас через пошаговый процесс его использования на примере соединителя S3 и покажем, как стать частью Неструктурированное сообщество.
Зачем использовать неструктурированный API?
Вариантов использования неструктурированной библиотеки с открытым исходным кодом и API множество; возможности безграничны, от анализа отзывов клиентов в режиме реального времени до извлечения информации из больших хранилищ документов. В то время как неструктурированная библиотека с открытым исходным кодом предлагает надежную функциональность, использование неструктурированного API дает несколько неоспоримых преимуществ:
- Простота использования: API не требует управления зависимостями. Все, что вам нужно, это ключ API, и вы готовы к работе.
- Масштабируемость. Неструктурированный API может обрабатывать большие объемы данных, что делает его идеальным для проектов корпоративного масштаба.
- Постоянные обновления. Будучи размещенной службой, API выигрывает от постоянных обновлений и улучшений, не требуя обновлений вручную.
Чтобы показать, насколько это просто, мы шаг за шагом проведем вас через использование неструктурированного API с S3 Connector.
Руководство по использованию неструктурированного API
Прежде чем мы начнем, вам понадобится следующее:
- Установлен неструктурированный ключ API и
unstructured-ingest
библиотека. - Ведро AWS S3 с документами, которые вы хотите обработать
- Базовые знания операций командной строки
Пошаговый процесс:
- Получите неструктурированный ключ API
Сначала запросите ключ API, введя Название организации и Электронную почту в форме запроса. Этот ключ — ваш пропуск к мощным функциям неструктурированного API.
2. Изучите готовые коннекторы данных
Возможность подключения к различным источникам данных имеет решающее значение при обработке данных. Модуль соединителей Unstructured предназначен для обеспечения этой гибкости, позволяя вам легко интегрировать конвейер предварительной обработки с предпочитаемыми вами платформами хранения данных.
Модуль Connector позволяет выполнять пакетную обработку всех ваших документов и сохранять структурированные выходные данные локально в вашей файловой системе. Этот модуль также поддерживает различные коннекторы, предназначенные для конкретной платформы хранения данных.
В настоящее время неструктурированный API поддерживает более дюжины готовых соединителей, каждый из которых предназначен для бесшовной интеграции с различными источниками данных. К ним относятся AWS S3, Google Cloud Storage, Azure Blob Storage и другие. В этом руководстве в качестве примера рассматривается разъем S3.
3. Запуск неструктурированного API с коннектором S3
Когда ваш ключ API и корзина S3 готовы, пришло время запустить неструктурированный API. Чтобы запустить команду `unstructured-ingest`, вам необходимо установить неструктурированную библиотеку с открытым исходным кодом, которую можно легко получить из этого репозитория GitHub.
Просто следуйте инструкциям в репозитории, чтобы установить библиотеку и легко начать использовать команду API. Как указано в примечаниях по установке, убедитесь, что при установке неструктурированных компонентов установлены следующие дополнительные компоненты, необходимые для выполнения следующей команды:
pip install "unstructured[s3,local-inference]"
Эта команда обработает документы в вашей корзине S3:
unstructured-ingest \ --remote-url s3://utic-dev-tech-fixtures/small-pdf-set/ \ --s3-anonymous \ --structured-output-dir s3-small-batch-output \ --num-processes 8 \ --api-key <<YOUR-API-KEY>> \ --partition-by-api
Пояснения:
- Включите
--api-key
из предыдущего шага в свой вызов API. - Используйте флаг
--partition-by-api
, чтобы указать, что раздел работает через API, а не через библиотеку. - Укажите
--num-processes
, чтобы распределить рабочую нагрузку между несколькими процессами. - Используйте
--s3-anonymous
, чтобы сделать запрос API к S3 без локальных учетных данных AWS. - Задайте выходной каталог с помощью параметра
--structured-output-dir
.
4. Просмотрите окончательный результат
После завершения команды вы найдете структурированные выходные данные в вашей локальной файловой системе. Эти файлы содержат информацию, извлеченную из ваших неструктурированных данных, готовую для анализа или дальнейшей обработки.
Забегая вперед, Unstructured разрабатывает нисходящий коннектор для обратной записи в AWS S3. Эта функция позволит вам сохранять выходные данные непосредственно на S3, оптимизируя конвейер данных. Если вам нужно сохранить выходные данные в корзине S3, теперь вы можете использовать AWS S3 CLI для сохранения выходных данных в корзине S3.
Присоединяйтесь к неструктурированной группе сообщества
Готовы начать? Запросите свой ключ API сегодня и откройте для себя возможности неструктурированного API и коннекторов. Присоединяйтесь к неструктурированной группе сообщества, чтобы общаться с другими пользователями, задавать вопросы, делиться своим опытом и получать последние обновления. Нам не терпится увидеть, что вы построите.
Первоначально опубликовано на https://medium.com 21 июля 2023 г.