Java: Lucene Analyzer Sınıfları

13 Haziran 2019 Perşembe

Lucene Analyzer Sınıfları

Giriş
Analyzer hem indeksleme hem de sorgulama için kullanılır. Bu yüzden her iki çağrıya da geçilir. Açıklaması şöyle.

The Analyzer is used by both indexing and queries to tell both how to parse text so they can think about the text in the same way. It sets up how to tokenize (what to split on, whether to toLower(), etc).

Analyzer Sınıfı
Giriş
constructor

Örnek
Şöyle yaparız.

Analyzer analyzer = new EnglishAnalyzer();

Örnek

Şöyle yaparız.

public class LowercasingKeywordAnalyzer extends Analyzer {

  @Override
  protected TokenStreamComponents createComponents(String fieldName) {
    KeywordTokenizer keywordTokenizer = new KeywordTokenizer();
    TokenStream stream = new LowerCaseFilter(keywordTokenizer));
    return new TokenStreamComponents(keywordTokenizer, stream);
   }
}

tokenStream metodu

Örnek

Şöyle yaparız.

TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);

Örnek

Şöyle yaparız.

Analyzer analyzer = ...;
TokenStream stream = analyzer.tokenStream("field", text);

SimpleAnalyzer Sınıfı
Giriş

Açıklaması şöyle.

Divides text at non-letter characters and puts text in lowercase

StandardAnalyzer Sınıfı

Giriş
Açıklaması şöyle.

Tokenizes text based on a sophisticated grammar that recognizes: e-mail addresses; acronyms; Chinese, Japanese, and Korean characters; alphanumerics; and more. Puts text in lowercase. Removes stop words

constrcutor

Örnek
Şöyle yaparız.

// Create the analyzer (has default stop words)
Analyzer analyzer = new StandardAnalyzer();

Örnek
Şöyle yaparız.

// Specify the analyzer for tokenizing text.
StandardAnalyzer analyzer = new StandardAnalyzer();

StopAnalyzer Sınıfı
Giriş

Açıklaması şöyle.

Removes stop words (not useful for searching) and puts text in lowercase.

WhitespaceAnalyzer Sınıfı
Giriş

Açıklaması şöyle.

Splits tokens at whitespace

Java

13 Haziran 2019 Perşembe

Lucene Analyzer Sınıfları

Hiç yorum yok:

Yorum Gönder