В огромной цифровой вселенной данные являются источником жизненной силы, которая стимулирует принятие решений и инновации. Но не все данные одинаковы. Неструктурированные данные в изображениях и документах часто содержат огромное количество информации, которую сложно извлечь и проанализировать.

Откройте для себя Unstructured.io, мощный инструмент для извлечения и эффективного преобразования структурированных данных. Благодаря шестнадцати готовым коннекторам API может легко интегрироваться с различными источниками данных, включая AWS S3, GitHub, Google Cloud Storage и другие.

В этом руководстве мы расскажем о преимуществах использования модуля неструктурированного API и соединителя, проведем вас через пошаговый процесс его использования на примере соединителя S3 и покажем, как стать частью Неструктурированное сообщество.

Зачем использовать неструктурированный API?

Вариантов использования неструктурированной библиотеки с открытым исходным кодом и API множество; возможности безграничны, от анализа отзывов клиентов в режиме реального времени до извлечения информации из больших хранилищ документов. В то время как неструктурированная библиотека с открытым исходным кодом предлагает надежную функциональность, использование неструктурированного API дает несколько неоспоримых преимуществ:

  1. Простота использования: API не требует управления зависимостями. Все, что вам нужно, это ключ API, и вы готовы к работе.
  2. Масштабируемость. Неструктурированный API может обрабатывать большие объемы данных, что делает его идеальным для проектов корпоративного масштаба.
  3. Постоянные обновления. Будучи размещенной службой, API выигрывает от постоянных обновлений и улучшений, не требуя обновлений вручную.

Чтобы показать, насколько это просто, мы шаг за шагом проведем вас через использование неструктурированного API с S3 Connector.

Руководство по использованию неструктурированного API

Прежде чем мы начнем, вам понадобится следующее:

  1. Установлен неструктурированный ключ API и unstructured-ingest библиотека.
  2. Ведро AWS S3 с документами, которые вы хотите обработать
  3. Базовые знания операций командной строки

Пошаговый процесс:

  1. Получите неструктурированный ключ API

Сначала запросите ключ API, введя Название организации и Электронную почту в форме запроса. Этот ключ — ваш пропуск к мощным функциям неструктурированного API.

2. Изучите готовые коннекторы данных

Возможность подключения к различным источникам данных имеет решающее значение при обработке данных. Модуль соединителей Unstructured предназначен для обеспечения этой гибкости, позволяя вам легко интегрировать конвейер предварительной обработки с предпочитаемыми вами платформами хранения данных.

Модуль Connector позволяет выполнять пакетную обработку всех ваших документов и сохранять структурированные выходные данные локально в вашей файловой системе. Этот модуль также поддерживает различные коннекторы, предназначенные для конкретной платформы хранения данных.

В настоящее время неструктурированный API поддерживает более дюжины готовых соединителей, каждый из которых предназначен для бесшовной интеграции с различными источниками данных. К ним относятся AWS S3, Google Cloud Storage, Azure Blob Storage и другие. В этом руководстве в качестве примера рассматривается разъем S3.

3. Запуск неструктурированного API с коннектором S3

Когда ваш ключ API и корзина S3 готовы, пришло время запустить неструктурированный API. Чтобы запустить команду `unstructured-ingest`, вам необходимо установить неструктурированную библиотеку с открытым исходным кодом, которую можно легко получить из этого репозитория GitHub.

Просто следуйте инструкциям в репозитории, чтобы установить библиотеку и легко начать использовать команду API. Как указано в примечаниях по установке, убедитесь, что при установке неструктурированных компонентов установлены следующие дополнительные компоненты, необходимые для выполнения следующей команды:

pip install "unstructured[s3,local-inference]"

Эта команда обработает документы в вашей корзине S3:

unstructured-ingest \
 --remote-url s3://utic-dev-tech-fixtures/small-pdf-set/ \
 --s3-anonymous \
 --structured-output-dir s3-small-batch-output \
 --num-processes 8 \
 --api-key <<YOUR-API-KEY>> \
 --partition-by-api

Пояснения:

  • Включите --api-key из предыдущего шага в свой вызов API.
  • Используйте флаг --partition-by-api, чтобы указать, что раздел работает через API, а не через библиотеку.
  • Укажите --num-processes, чтобы распределить рабочую нагрузку между несколькими процессами.
  • Используйте --s3-anonymous, чтобы сделать запрос API к S3 без локальных учетных данных AWS.
  • Задайте выходной каталог с помощью параметра --structured-output-dir.

4. Просмотрите окончательный результат

После завершения команды вы найдете структурированные выходные данные в вашей локальной файловой системе. Эти файлы содержат информацию, извлеченную из ваших неструктурированных данных, готовую для анализа или дальнейшей обработки.

Забегая вперед, Unstructured разрабатывает нисходящий коннектор для обратной записи в AWS S3. Эта функция позволит вам сохранять выходные данные непосредственно на S3, оптимизируя конвейер данных. Если вам нужно сохранить выходные данные в корзине S3, теперь вы можете использовать AWS S3 CLI для сохранения выходных данных в корзине S3.

Присоединяйтесь к неструктурированной группе сообщества

Готовы начать? Запросите свой ключ API сегодня и откройте для себя возможности неструктурированного API и коннекторов. Присоединяйтесь к неструктурированной группе сообщества, чтобы общаться с другими пользователями, задавать вопросы, делиться своим опытом и получать последние обновления. Нам не терпится увидеть, что вы построите.

Первоначально опубликовано на https://medium.com 21 июля 2023 г.