Nano Hash - криптовалюты, майнинг, программирование

представлять символы в реальных формах [дубликаты]

У меня есть файл, созданный этой командой: fab -f vocab/fabfile build_vocab:<lang>,<corpus_files_root>. Эта команда является частью руководства spaCy и получена из здесь. Поскольку эта команда работает с fabric, который, в свою очередь, работает с python 2, на выходе будет много персидских строк, представленных их кодами Unicode, а не фактическая строка, сама строка. Другими словами, у меня есть следующее:

2   1   u'\u0641\u0632\u0646\u062f\u0627\u0646'
1   1   u'\u200c\u0645\u0648\u0647\u0627\u06cc'
2   1   u'\u0627\u0641\u0646\u0647'
.
.
.

вместо этого:

2   1   u'فزندان'
1   1   u'موهای'
2   1   u'افنه'
.
.
.

В качестве следующей части процесса, запускаемой вышеупомянутой командой fabric ..., он пытается прочитать этот файл и сравнить его со словом в его фактической форме. Поэтому я думаю, что мне нужно преобразовать строку, представленную в Unicode, в фактическую форму. Есть ли способ сделать это?


  • Это форма repr(). Это всегда только ASCII в Python 2 AFAIK. Вы можете перейти на Python 3. Или использовать unicode(...) вместо repr(...), но это не даст вам кавычек вокруг строк (если они вам действительно нужны). 08.01.2018
  • Это не проблема для Python, поскольку он обрабатывает их одинаково, но как вы сгенерировали этот файл? Должна быть возможность его изменить. 08.01.2018
  • Это часть обучения словарному запасу модели spaCy. К сожалению, этот скрипт работает под python2. Есть ли способ преобразовать тексты выше? 08.01.2018
  • @GmosyGnaq Означает ли это, что вы его не создавали? 08.01.2018
  • @GmosyGnaq, вам нужно предоставить больше информации. Как вы обрабатываете этот вывод? Во втором формате работает, а в первом нет? Если да, то каким образом он терпит неудачу? Пожалуйста, отредактируйте вопрос, чтобы уточнить эти моменты. 09.01.2018
  • Спасибо @hovercraft-full-of-eels. Это выглядит так. Должен ли я сделать что-то особенное? 09.01.2018

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..