C# Класс Lucene.Net.Analysis.Cn.ChineseTokenizer

Tokenize Chinese text as individual chinese chars.

The difference between ChineseTokenizer and CJKTokenizer is that they have different token parsing logic.

For example, if the Chinese text "C1C2C3C4" is to be indexed:

  • The tokens returned from ChineseTokenizer are C1, C2, C3, C4
  • The tokens returned from the CJKTokenizer are C1C2, C2C3, C3C4.

Therefore the index created by CJKTokenizer is much larger.

The problem is that when searching for C1, C1C2, C1C3, C4C2, C1C2C3 ... the ChineseTokenizer works, but the CJKTokenizer will not work.

Наследование: Lucene.Net.Analysis.Tokenizer
Показать файл Открыть проект Примеры использования класса

Открытые методы

Метод Описание
ChineseTokenizer ( AttributeFactory factory, TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
ChineseTokenizer ( TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
End ( ) : void
IncrementToken ( ) : bool
Reset ( ) : void

Приватные методы

Метод Описание
Init ( ) : void
flush ( ) : bool
push ( char c ) : void

Описание методов

ChineseTokenizer() публичный Метод

public ChineseTokenizer ( AttributeFactory factory, TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
factory AttributeFactory
@in TextReader
Результат Lucene.Net.Analysis.Tokenattributes

ChineseTokenizer() публичный Метод

public ChineseTokenizer ( TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
@in TextReader
Результат Lucene.Net.Analysis.Tokenattributes

End() публичный Метод

public End ( ) : void
Результат void

IncrementToken() публичный Метод

public IncrementToken ( ) : bool
Результат bool

Reset() публичный Метод

public Reset ( ) : void
Результат void