Nano Hash - криптовалюты, майнинг, программирование

Неверное исключение URI при чтении модели Jena

Я конвертирую свой входной поток в модель Jena. Но, видимо, я получаю эту ошибку:

org.apache.jena.riot.system.ErrorHandlerFactory$ErrorLogger", Bad character in IRI (space): 

Когда я проверил, в URI действительно был пробел, и я знаю, что он недействителен. Но есть ли способ или какое-либо уродливое решение сделать это без исправления данных.

Я нашел что-то вроде reader.setProperty("allowBadURIs", "true"), но похоже, что это относится только к RDF Writer.

Вот мой код:

InputStream targetStream = new FileInputStream(new File(file_location);

Model modelResult = ModelFactory.createDefaultModel().read(rdfInput, "", "RDF/XML");

Пример URL

"http://openfashion.momu.be/9f spelden en verpakkingen momu fs "
15.06.2020

  • Из истории Jena мы знаем, что пробелы вызывают другие проблемы, множество вопросов и непригодные для использования (поврежденные) базы данных. Это компромисс. 16.06.2020

Ответы:


1

В настоящее время нет способа. Данные имеют сломанный токен, и хорошее восстановление затруднено. Есть две проблемы с пропуском пробелов:

Иногда данные повреждены, поэтому это не пробел в URI, а отсутствие завершающего символа «>» (ошибка связана с обработкой токенизатором символов при вводе) ранее, поэтому большой объем текста может быть прочитан как один URI.

После приема такие плохие IRI вызывают проблемы с нисходящим потоком (например, их невозможно надежно распечатать). Только некоторые писатели могут справиться, и тогда они выводят RDF, который другие системы не могут прочитать.

Решение состоит в том, чтобы исправить ввод, чтобы не откладывать проблемы, которые возникнут позже, особенно если они хранятся в постоянной базе данных.

16.06.2020
  • Я думаю, что исправление данных - лучший вариант. Спасибо 17.06.2020
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..