C# Класс Lucene.Net.Analysis.Standard.UAX29URLEmailTokenizerImpl

This class implements Word Break rules from the Unicode Text Segmentation algorithm, as specified in Unicode Standard Annex #29 URLs and email addresses are also tokenized according to the relevant RFCs.

Tokens produced are of the following types:

  • <ALPHANUM>: A sequence of alphabetic and numeric characters
  • <NUM>: A number
  • <URL>: A URL
  • <EMAIL>: An email address
  • <SOUTHEAST_ASIAN>: A sequence of characters from South and Southeast Asian languages, including Thai, Lao, Myanmar, and Khmer
  • <IDEOGRAPHIC>: A single CJKV ideographic character
  • <HIRAGANA>: A single hiragana character
  • <KATAKANA>: A sequence of katakana characters
  • <HANGUL>: A sequence of Hangul characters
Наследование: IStandardTokenizerInterface
Показать файл Открыть проект

Открытые свойства

Свойство Тип Описание
EMAIL_TYPE int
HANGUL_TYPE int
HIRAGANA_TYPE int
IDEOGRAPHIC_TYPE int
KATAKANA_TYPE int
NUMERIC_TYPE int
SOUTH_EAST_ASIAN_TYPE int
URL_TYPE int
WORD_TYPE int
YYEOF int

Открытые методы

Метод Описание
GetNextToken ( ) : int
GetText ( ICharTermAttribute t ) : void
UAX29URLEmailTokenizerImpl ( TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
YyBegin ( int newState ) : void
YyCharAt ( int pos ) : char
YyClose ( ) : void
YyPushBack ( int number ) : void
YyReset ( TextReader reader ) : void

Приватные методы

Метод Описание
ZzRefill ( ) : bool
ZzScanError ( int errorCode ) : void
ZzUnpackAction ( string packed, int offset, int result ) : int
ZzUnpackAction ( ) : int[]
ZzUnpackAttribute ( string packed, int offset, int result ) : int
ZzUnpackAttribute ( ) : int[]
ZzUnpackCMap ( string packed ) : char[]
ZzUnpackRowMap ( string packed, int offset, int result ) : int
ZzUnpackRowMap ( ) : int[]
ZzUnpackTrans ( string packed, int offset, int result ) : int
ZzUnpackTrans ( ) : int[]

Описание методов

GetNextToken() публичный Метод

public GetNextToken ( ) : int
Результат int

GetText() публичный Метод

public GetText ( ICharTermAttribute t ) : void
t ICharTermAttribute
Результат void

UAX29URLEmailTokenizerImpl() публичный Метод

public UAX29URLEmailTokenizerImpl ( TextReader @in ) : Lucene.Net.Analysis.Tokenattributes
@in System.IO.TextReader
Результат Lucene.Net.Analysis.Tokenattributes

YyBegin() публичный Метод

public YyBegin ( int newState ) : void
newState int
Результат void

YyCharAt() публичный Метод

public YyCharAt ( int pos ) : char
pos int
Результат char

YyClose() публичный Метод

public YyClose ( ) : void
Результат void

YyPushBack() публичный Метод

public YyPushBack ( int number ) : void
number int
Результат void

YyReset() публичный Метод

public YyReset ( TextReader reader ) : void
reader System.IO.TextReader
Результат void

Описание свойств

EMAIL_TYPE публичное статическое свойство

public static int EMAIL_TYPE
Результат int

HANGUL_TYPE публичное статическое свойство

public static int HANGUL_TYPE
Результат int

HIRAGANA_TYPE публичное статическое свойство

public static int HIRAGANA_TYPE
Результат int

IDEOGRAPHIC_TYPE публичное статическое свойство

public static int IDEOGRAPHIC_TYPE
Результат int

KATAKANA_TYPE публичное статическое свойство

public static int KATAKANA_TYPE
Результат int

NUMERIC_TYPE публичное статическое свойство

public static int NUMERIC_TYPE
Результат int

SOUTH_EAST_ASIAN_TYPE публичное статическое свойство

public static int SOUTH_EAST_ASIAN_TYPE
Результат int

URL_TYPE публичное статическое свойство

public static int URL_TYPE
Результат int

WORD_TYPE публичное статическое свойство

public static int WORD_TYPE
Результат int

YYEOF публичное статическое свойство

public static int YYEOF
Результат int