Легкое извлечение документов: руководство по использованию неструктурированного API и коннекторов данных

В огромной цифровой вселенной данные являются источником жизненной силы, которая стимулирует принятие решений и инновации. Но не все данные одинаковы. Неструктурированные данные в изображениях и документах часто содержат огромное количество информации, которую сложно извлечь и проанализировать.

Откройте для себя Unstructured.io, мощный инструмент для извлечения и эффективного преобразования структурированных данных. Благодаря шестнадцати готовым коннекторам API может легко интегрироваться с различными источниками данных, включая AWS S3, GitHub, Google Cloud Storage и другие.

В этом руководстве мы расскажем о преимуществах использования модуля неструктурированного API и соединителя, проведем вас через пошаговый процесс его использования на примере соединителя S3 и покажем, как стать частью Неструктурированное сообщество.

Зачем использовать неструктурированный API?

Вариантов использования неструктурированной библиотеки с открытым исходным кодом и API множество; возможности безграничны, от анализа отзывов клиентов в режиме реального времени до извлечения информации из больших хранилищ документов. В то время как неструктурированная библиотека с открытым исходным кодом предлагает надежную функциональность, использование неструктурированного API дает несколько неоспоримых преимуществ:

Простота использования: API не требует управления зависимостями. Все, что вам нужно, это ключ API, и вы готовы к работе.
Масштабируемость. Неструктурированный API может обрабатывать большие объемы данных, что делает его идеальным для проектов корпоративного масштаба.
Постоянные обновления. Будучи размещенной службой, API выигрывает от постоянных обновлений и улучшений, не требуя обновлений вручную.

Чтобы показать, насколько это просто, мы шаг за шагом проведем вас через использование неструктурированного API с S3 Connector.

Руководство по использованию неструктурированного API

Прежде чем мы начнем, вам понадобится следующее:

Установлен неструктурированный ключ API и unstructured-ingest библиотека.
Ведро AWS S3 с документами, которые вы хотите обработать
Базовые знания операций командной строки

Пошаговый процесс:

Получите неструктурированный ключ API

Сначала запросите ключ API, введя Название организации и Электронную почту в форме запроса. Этот ключ — ваш пропуск к мощным функциям неструктурированного API.

2. Изучите готовые коннекторы данных

Возможность подключения к различным источникам данных имеет решающее значение при обработке данных. Модуль соединителей Unstructured предназначен для обеспечения этой гибкости, позволяя вам легко интегрировать конвейер предварительной обработки с предпочитаемыми вами платформами хранения данных.

Модуль Connector позволяет выполнять пакетную обработку всех ваших документов и сохранять структурированные выходные данные локально в вашей файловой системе. Этот модуль также поддерживает различные коннекторы, предназначенные для конкретной платформы хранения данных.

В настоящее время неструктурированный API поддерживает более дюжины готовых соединителей, каждый из которых предназначен для бесшовной интеграции с различными источниками данных. К ним относятся AWS S3, Google Cloud Storage, Azure Blob Storage и другие. В этом руководстве в качестве примера рассматривается разъем S3.

3. Запуск неструктурированного API с коннектором S3

Когда ваш ключ API и корзина S3 готовы, пришло время запустить неструктурированный API. Чтобы запустить команду `unstructured-ingest`, вам необходимо установить неструктурированную библиотеку с открытым исходным кодом, которую можно легко получить из этого репозитория GitHub.

Просто следуйте инструкциям в репозитории, чтобы установить библиотеку и легко начать использовать команду API. Как указано в примечаниях по установке, убедитесь, что при установке неструктурированных компонентов установлены следующие дополнительные компоненты, необходимые для выполнения следующей команды:

pip install "unstructured[s3,local-inference]"

Эта команда обработает документы в вашей корзине S3:

unstructured-ingest \
 --remote-url s3://utic-dev-tech-fixtures/small-pdf-set/ \
 --s3-anonymous \
 --structured-output-dir s3-small-batch-output \
 --num-processes 8 \
 --api-key <<YOUR-API-KEY>> \
 --partition-by-api

Пояснения:

Включите --api-key из предыдущего шага в свой вызов API.
Используйте флаг --partition-by-api, чтобы указать, что раздел работает через API, а не через библиотеку.
Укажите --num-processes, чтобы распределить рабочую нагрузку между несколькими процессами.
Используйте --s3-anonymous, чтобы сделать запрос API к S3 без локальных учетных данных AWS.
Задайте выходной каталог с помощью параметра --structured-output-dir.

4. Просмотрите окончательный результат

После завершения команды вы найдете структурированные выходные данные в вашей локальной файловой системе. Эти файлы содержат информацию, извлеченную из ваших неструктурированных данных, готовую для анализа или дальнейшей обработки.

Забегая вперед, Unstructured разрабатывает нисходящий коннектор для обратной записи в AWS S3. Эта функция позволит вам сохранять выходные данные непосредственно на S3, оптимизируя конвейер данных. Если вам нужно сохранить выходные данные в корзине S3, теперь вы можете использовать AWS S3 CLI для сохранения выходных данных в корзине S3.

Присоединяйтесь к неструктурированной группе сообщества

Готовы начать? Запросите свой ключ API сегодня и откройте для себя возможности неструктурированного API и коннекторов. Присоединяйтесь к неструктурированной группе сообщества, чтобы общаться с другими пользователями, задавать вопросы, делиться своим опытом и получать последние обновления. Нам не терпится увидеть, что вы построите.

Первоначально опубликовано на https://medium.com 21 июля 2023 г.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Developer Neural Networks Computer Science NLP