13 Haziran 2019 Perşembe

Lucene Analyzer Sınıfları

Giriş
Analyzer hem indeksleme hem de sorgulama için kullanılır. Bu yüzden her iki çağrıya da geçilir. Açıklaması şöyle.
The Analyzer is used by both indexing and queries to tell both how to parse text so they can think about the text in the same way. It sets up how to tokenize (what to split on, whether to toLower(), etc). 
Analyzer Sınıfı
Giriş
constructor
Örnek
Şöyle yaparız.
Analyzer analyzer = new EnglishAnalyzer();
Örnek
Şöyle yaparız.
public class LowercasingKeywordAnalyzer extends Analyzer {

  @Override
  protected TokenStreamComponents createComponents(String fieldName) {
    KeywordTokenizer keywordTokenizer = new KeywordTokenizer();
    TokenStream stream = new LowerCaseFilter(keywordTokenizer));
    return new TokenStreamComponents(keywordTokenizer, stream);
   }
}
tokenStream metodu
Örnek
Şöyle yaparız.
TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
Örnek
Şöyle yaparız.
Analyzer analyzer = ...;
TokenStream stream = analyzer.tokenStream("field", text);
SimpleAnalyzer Sınıfı
Giriş
Açıklaması şöyle.
Divides text at non-letter characters and puts text in lowercase

StandardAnalyzer Sınıfı
Giriş
Açıklaması şöyle.
Tokenizes text based on a sophisticated grammar that recognizes: e-mail addresses; acronyms; Chinese, Japanese, and Korean characters; alphanumerics; and more. Puts text in lowercase. Removes stop words
constrcutor
Örnek
Şöyle yaparız.
// Create the analyzer (has default stop words)
Analyzer analyzer = new StandardAnalyzer();
Örnek
Şöyle yaparız.
// Specify the analyzer for tokenizing text.
StandardAnalyzer analyzer = new StandardAnalyzer();
StopAnalyzer Sınıfı
Giriş
Açıklaması şöyle.
Removes stop words (not useful for searching) and puts text in lowercase.
WhitespaceAnalyzer Sınıfı
Giriş
Açıklaması şöyle.
Splits tokens at whitespace

Hiç yorum yok:

Yorum Gönder