Я новичок в питоне, я использую эту строку
reader = CategorizedPlaintextCorpusReader('~/CorpusMain/',
r'.*\.txt', cat_pattern=r'(\w+)/*')
Внутри моей папки CorpusMain у меня есть еще три папки для категорий. Мне нужно получить доступ к каждому содержимому текстового файла в каждой категории отдельно, создавая список для каждой категории, содержащий текстовые файлы в качестве элементов.. например, category1 = ['textfile1 content', 'textfile2 content'... и т. д.] Я хочу сделать это используя мой читатель, то есть ссылаться на каждый файл (fileids()) и получать его результат reader.raw...
Мне нужно это, чтобы передать их обратно в мой CountVectorizer, чтобы построить вектор для каждой категории.