Я пытаюсь найти лучший подход к разбиению текста на предложения.
Я попробовал Стэнфордский НЛП и был фактически разочарован тем, насколько плохо он работал.
Например
"Who are you?" asked another man.
Он распознал два предложения: "Who are you?"
и asked another man
.
He said, "Nothing. Nothing at all."
Он распознал как два предложения:
He said, "Nothing.
и Nothing at all."
.
Я также попробовал обычную ванильную Java BreakIterator.getSentenceInstance, и она не понимает никаких сокращений. Например, г-н президент, оно разбивается на два предложения «г-н». и «Президент». Тем не менее, Стэнфордский НЛП не делил Сэмюэля Л. Джексона или Джорджа Буша-младшего на несколько предложений.
Так что я в растерянности, что еще попробовать.