Я использую набор инструментов Стэнфордского тематического моделирования (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/, и я хочу подготовить набор текстовых данных. У меня есть текстовый файл стоп-слов.
Однако,
TermStopListFilter()
Который отфильтровывает стоп-слова из моего набора данных CSV, принимает только список внутри скрипта, например:
TermStopListFilter(List("positively","scrumptious"))
Как мне импортировать файл stopwords.txt и использовать его в качестве списка стоп-слов?
Полный фрагмент кода, который я использую:
val source = CSVFile("filtered.csv");
val text = {
source ~>
Column(1) ~>
TokenizeWith(tokenizer) ~>
TermCounter() ~>
TermMinimumDocumentCountFilter(100) ~>
TermStopListFilter(TXTFile("stopwords.txt"))
TermDynamicStopListFilter(10) ~>
DocumentMinimumLengthFilter(5)
}