Учитывая соответствие термина в документе, как лучше всего получить доступ к словам вокруг этого соответствия? Я прочитал эту статью http://searchhub.org//2009/05/26/accessing-words-around-a-positional-match-in-lucene/, но проблема в том, что API Lucene полностью изменился с момента публикации этого сообщения (2009 г.) , может ли кто-нибудь указать мне, как это сделать в более новой версии Lucene, такой как Lucene 4.6.1?
ИЗМЕНИТЬ:
Я понял это сейчас (API для публикации (TermEnum, TermDocsEnum, TermPositionsEnum) были удалены в пользу новых API гибкого индексирования (flex) (Fields, FieldsEnum,Terms,TermsEnum, DocsEnum, DocsAndPositionsEnum). Одно большое отличие заключается в том, что поле и термины теперь перечисляются отдельно: в TerminalEnum предоставляется BytesRef (обертывает byte[]) для каждого термина в одном поле, а не в термине.Другое заключается в том, что при запросе Docs/AndPositionsEnum вы теперь явно указываете skipDocs (обычно это будут удаленные документы, но в целом вы можете предоставить любые биты).):
public class TermVectorFun {
public static String[] DOCS = {
"The quick red fox jumped over the lazy brown dogs.",
"Mary had a little lamb whose fleece was white as snow.",
"Moby Dick is a story of a whale and a man obsessed.",
"The robber wore a black fleece jacket and a baseball cap.",
"The English Springer Spaniel is the best of all dogs.",
"The fleece was green and red",
"History looks fondly upon the story of the golden fleece, but most people don't agree"
};
public static void main(String[] args) throws IOException {
RAMDirectory ramDir = new RAMDirectory();
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46, new StandardAnalyzer(Version.LUCENE_46));
config.setOpenMode(IndexWriterConfig.OpenMode.CREATE);
//Index some made up content
IndexWriter writer = new IndexWriter(ramDir, config);
for (int i = 0; i < DOCS.length; i++) {
Document doc = new Document();
Field id = new Field("id", "doc_" + i, Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS);
doc.add(id);
//Store both position and offset information
Field text = new Field("content", DOCS[i], Field.Store.NO, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
doc.add(text);
writer.addDocument(doc);
}
writer.close();
//Get a searcher
DirectoryReader dirReader = DirectoryReader.open(ramDir);
IndexSearcher searcher = new IndexSearcher(dirReader);
// Do a search using SpanQuery
SpanTermQuery fleeceQ = new SpanTermQuery(new Term("content", "fleece"));
TopDocs results = searcher.search(fleeceQ, 10);
for (int i = 0; i < results.scoreDocs.length; i++) {
ScoreDoc scoreDoc = results.scoreDocs[i];
System.out.println("Score Doc: " + scoreDoc);
}
IndexReader reader = searcher.getIndexReader();
Spans spans = fleeceQ.getSpans(reader.leaves().get(0), null, new LinkedHashMap<Term, TermContext>());
int window = 2;//get the words within two of the match
while (spans.next() == true) {
int start = spans.start() - window;
int end = spans.end() + window;
Map<Integer, String> entries = new TreeMap<Integer, String>();
System.out.println("Doc: " + spans.doc() + " Start: " + start + " End: " + end);
Fields fields = reader.getTermVectors(spans.doc());
Terms terms = fields.terms("content");
TermsEnum termsEnum = terms.iterator(null);
BytesRef text;
while((text = termsEnum.next()) != null) {
//could store the BytesRef here, but String is easier for this example
String s = new String(text.bytes, text.offset, text.length);
DocsAndPositionsEnum positionsEnum = termsEnum.docsAndPositions(null, null);
if (positionsEnum.nextDoc() != DocIdSetIterator.NO_MORE_DOCS) {
int i = 0;
int position = -1;
while (i < positionsEnum.freq() && (position = positionsEnum.nextPosition()) != -1) {
if (position >= start && position <= end) {
entries.put(position, s);
}
i++;
}
}
}
System.out.println("Entries:" + entries);
}
}
}