C# Класс org.apache.lucene.analysis.wikipedia.WikipediaTokenizer

Extension of StandardTokenizer that is aware of Wikipedia syntax. It is based off of the Wikipedia tutorial available at http://en.wikipedia.org/wiki/Wikipedia:Tutorial, but it may not be complete.

@lucene.experimental

Наследование: Tokenizer
Показать файл Открыть проект Примеры использования класса

Открытые свойства

Свойство Тип Описание
TOKEN_TYPES string[]

Открытые методы

Метод Описание
WikipediaTokenizer ( AttributeFactory factory, Reader input, int tokenOutput, HashSet untokenizedTypes ) : System.Collections.Generic

Creates a new instance of the org.apache.lucene.analysis.wikipedia.WikipediaTokenizer. Attaches the input to a the newly created JFlex scanner. Uses the given org.apache.lucene.util.AttributeSource.AttributeFactory.

WikipediaTokenizer ( Reader input ) : System.Collections.Generic

Creates a new instance of the WikipediaTokenizer. Attaches the input to a newly created JFlex scanner.

WikipediaTokenizer ( Reader input, int tokenOutput, HashSet untokenizedTypes ) : System.Collections.Generic

Creates a new instance of the org.apache.lucene.analysis.wikipedia.WikipediaTokenizer. Attaches the input to a the newly created JFlex scanner.

close ( ) : void
end ( ) : void
incrementToken ( ) : bool
reset ( ) : void

Приватные методы

Метод Описание
collapseAndSaveTokens ( int tokenType, string type ) : void
collapseTokens ( int tokenType ) : void
init ( int tokenOutput, HashSet untokenizedTypes ) : void
setupSavedToken ( int positionInc, string type ) : void
setupToken ( ) : void

Описание методов

WikipediaTokenizer() публичный Метод

Creates a new instance of the org.apache.lucene.analysis.wikipedia.WikipediaTokenizer. Attaches the input to a the newly created JFlex scanner. Uses the given org.apache.lucene.util.AttributeSource.AttributeFactory.
public WikipediaTokenizer ( AttributeFactory factory, Reader input, int tokenOutput, HashSet untokenizedTypes ) : System.Collections.Generic
factory AttributeFactory
input Reader The input
tokenOutput int One of , ,
untokenizedTypes HashSet
Результат System.Collections.Generic

WikipediaTokenizer() публичный Метод

Creates a new instance of the WikipediaTokenizer. Attaches the input to a newly created JFlex scanner.
public WikipediaTokenizer ( Reader input ) : System.Collections.Generic
input Reader The Input Reader
Результат System.Collections.Generic

WikipediaTokenizer() публичный Метод

Creates a new instance of the org.apache.lucene.analysis.wikipedia.WikipediaTokenizer. Attaches the input to a the newly created JFlex scanner.
public WikipediaTokenizer ( Reader input, int tokenOutput, HashSet untokenizedTypes ) : System.Collections.Generic
input Reader The input
tokenOutput int One of , ,
untokenizedTypes HashSet
Результат System.Collections.Generic

close() публичный Метод

public close ( ) : void
Результат void

end() публичный Метод

public end ( ) : void
Результат void

incrementToken() публичный Метод

public incrementToken ( ) : bool
Результат bool

reset() публичный Метод

public reset ( ) : void
Результат void

Описание свойств

TOKEN_TYPES публичное статическое свойство

String token types that correspond to token type int constants
public static string[] TOKEN_TYPES
Результат string[]