У меня есть файл, созданный этой командой: fab -f vocab/fabfile build_vocab:<lang>,<corpus_files_root>
. Эта команда является частью руководства spaCy и получена из здесь. Поскольку эта команда работает с fabric
, который, в свою очередь, работает с python 2, на выходе будет много персидских строк, представленных их кодами Unicode, а не фактическая строка, сама строка. Другими словами, у меня есть следующее:
2 1 u'\u0641\u0632\u0646\u062f\u0627\u0646'
1 1 u'\u200c\u0645\u0648\u0647\u0627\u06cc'
2 1 u'\u0627\u0641\u0646\u0647'
.
.
.
вместо этого:
2 1 u'فزندان'
1 1 u'موهای'
2 1 u'افنه'
.
.
.
В качестве следующей части процесса, запускаемой вышеупомянутой командой fabric ...
, он пытается прочитать этот файл и сравнить его со словом в его фактической форме. Поэтому я думаю, что мне нужно преобразовать строку, представленную в Unicode, в фактическую форму. Есть ли способ сделать это?