C# Класс Lucene.Net.Analysis.MockTokenizer

Tokenizer for testing.

this tokenizer is a replacement for #WHITESPACE, #SIMPLE, and #KEYWORD tokenizers. If you are writing a component such as a TokenFilter, its a great idea to test it wrapping this tokenizer instead for extra checks. this tokenizer has the following behavior:

  • An internal state-machine is used for checking consumer consistency. These checks can be disabled with #setEnableChecks(boolean).
  • For convenience, optionally lowercases terms that it outputs.
Наследование: Tokenizer
Показать файл Открыть проект Примеры использования класса

Открытые свойства

Свойство Тип Описание
DEFAULT_MAX_TOKEN_LENGTH int
KEYWORD CharacterRunAutomaton
SIMPLE CharacterRunAutomaton
WHITESPACE CharacterRunAutomaton

Открытые методы

Метод Описание
Dispose ( ) : void
End ( ) : void
IncrementToken ( ) : bool
MockTokenizer ( AttributeFactory factory, TextReader input ) : Lucene.Net.Analysis.Tokenattributes

Calls {@link #MockTokenizer(Lucene.Net.Util.AttributeSource.AttributeFactory,Reader,CharacterRunAutomaton,boolean) MockTokenizer(AttributeFactory, Reader, WHITESPACE, true)}

MockTokenizer ( AttributeFactory factory, TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase ) : Lucene.Net.Analysis.Tokenattributes
MockTokenizer ( AttributeFactory factory, TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase, int maxTokenLength ) : Lucene.Net.Analysis.Tokenattributes
MockTokenizer ( TextReader input ) : Lucene.Net.Analysis.Tokenattributes

Calls #MockTokenizer(Reader, CharacterRunAutomaton, boolean) MockTokenizer(Reader, WHITESPACE, true)

MockTokenizer ( TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase ) : Lucene.Net.Analysis.Tokenattributes
MockTokenizer ( TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase, int maxTokenLength ) : Lucene.Net.Analysis.Tokenattributes
Reset ( ) : void

Защищенные методы

Метод Описание
IsTokenChar ( int c ) : bool
Normalize ( int c ) : int
ReadChar ( ) : int
ReadCodePoint ( ) : int

Приватные методы

Метод Описание
SetReaderTestPoint ( ) : bool

Описание методов

Dispose() публичный Метод

public Dispose ( ) : void
Результат void

End() публичный Метод

public End ( ) : void
Результат void

IncrementToken() публичный закрытый Метод

public final IncrementToken ( ) : bool
Результат bool

IsTokenChar() защищенный Метод

protected IsTokenChar ( int c ) : bool
c int
Результат bool

MockTokenizer() публичный Метод

Calls {@link #MockTokenizer(Lucene.Net.Util.AttributeSource.AttributeFactory,Reader,CharacterRunAutomaton,boolean) MockTokenizer(AttributeFactory, Reader, WHITESPACE, true)}
public MockTokenizer ( AttributeFactory factory, TextReader input ) : Lucene.Net.Analysis.Tokenattributes
factory AttributeFactory
input System.IO.TextReader
Результат Lucene.Net.Analysis.Tokenattributes

MockTokenizer() публичный Метод

public MockTokenizer ( AttributeFactory factory, TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase ) : Lucene.Net.Analysis.Tokenattributes
factory AttributeFactory
input System.IO.TextReader
runAutomaton CharacterRunAutomaton
lowerCase bool
Результат Lucene.Net.Analysis.Tokenattributes

MockTokenizer() публичный Метод

public MockTokenizer ( AttributeFactory factory, TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase, int maxTokenLength ) : Lucene.Net.Analysis.Tokenattributes
factory AttributeFactory
input System.IO.TextReader
runAutomaton CharacterRunAutomaton
lowerCase bool
maxTokenLength int
Результат Lucene.Net.Analysis.Tokenattributes

MockTokenizer() публичный Метод

Calls #MockTokenizer(Reader, CharacterRunAutomaton, boolean) MockTokenizer(Reader, WHITESPACE, true)
public MockTokenizer ( TextReader input ) : Lucene.Net.Analysis.Tokenattributes
input System.IO.TextReader
Результат Lucene.Net.Analysis.Tokenattributes

MockTokenizer() публичный Метод

public MockTokenizer ( TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase ) : Lucene.Net.Analysis.Tokenattributes
input System.IO.TextReader
runAutomaton CharacterRunAutomaton
lowerCase bool
Результат Lucene.Net.Analysis.Tokenattributes

MockTokenizer() публичный Метод

public MockTokenizer ( TextReader input, CharacterRunAutomaton runAutomaton, bool lowerCase, int maxTokenLength ) : Lucene.Net.Analysis.Tokenattributes
input System.IO.TextReader
runAutomaton CharacterRunAutomaton
lowerCase bool
maxTokenLength int
Результат Lucene.Net.Analysis.Tokenattributes

Normalize() защищенный Метод

protected Normalize ( int c ) : int
c int
Результат int

ReadChar() защищенный Метод

protected ReadChar ( ) : int
Результат int

ReadCodePoint() защищенный Метод

protected ReadCodePoint ( ) : int
Результат int

Reset() публичный Метод

public Reset ( ) : void
Результат void

Описание свойств

DEFAULT_MAX_TOKEN_LENGTH публичное статическое свойство

public static int DEFAULT_MAX_TOKEN_LENGTH
Результат int

KEYWORD публичное статическое свойство

Acts Similar to KeywordTokenizer. TODO: Keyword returns an "empty" token for an empty reader...
public static CharacterRunAutomaton KEYWORD
Результат CharacterRunAutomaton

SIMPLE публичное статическое свойство

Acts like LetterTokenizer.
public static CharacterRunAutomaton SIMPLE
Результат CharacterRunAutomaton

WHITESPACE публичное статическое свойство

Acts Similar to WhitespaceTokenizer
public static CharacterRunAutomaton WHITESPACE
Результат CharacterRunAutomaton