TIKA參考API

用戶可以在使用 Tika 的外觀類在應用程序中嵌入Tika。它的方法來探索Tika的所有功能。因爲它是一個外網類,Tika抽象的背後有其功能的複雜性。除了這一點,用戶還可以使用各種Tika類在他們的應用程序。

User

Tika 類 (facade)

這是最突出的Tika類庫和正面設計模式。因此,抽象所有的內部實現,並提供了簡單的方法來訪問Tika功能。下表列出該類的構造函數以及它們的描述。

package : org.apache.tika

class: Tika

S.No.

構造函數和說明

1

Tika ()

使用默認配置,構建Tika類。

2

Tika (Detector detector)

通過接受檢測實例作爲參數創建 Tika 的外觀

3

Tika (Detector detector, Parser parser)

創建一個Tika外觀通過接受檢測和解析器實例作爲參數。

4

Tika (Detector detector, Parser parser, Translator translator)

創建一個Tika外觀通過接受檢測器,解析器,並且轉換實例作爲參數。

5

Tika (TikaConfig config)

創建一個Tika外觀通過接受TikaConfig類作爲參數的對象。

方法和說明

以下是 Tika外觀類的重要方法:

S.No.

方法和描述

1

String parseToString (File file)

此方法及其所有變種分析作爲參數傳遞的文件,並返回字符串格式提取的文本內容。默認情況下,這個字符串參數的長度是有限的。

2

int getMaxStringLength ()

返回由parseToString方法返回字符串的最大長度。

3

void setMaxStringLength (int maxStringLength)

設置由parseToString方法返回的字符串的最大長度。

4

Reader parse (File file)

該方法及其所有變型解析作爲參數傳遞的文件,並返回 java.io.Reader對象的形式,所提取的文本內容。

5

String detect (InputStream stream, Metadata metadata)

該方法及其所有變接受InputStream對象和元數據對象作爲參數,檢測出給定文檔的類型,並返回該文件類型的名稱作爲字符串對象。這種方法提煉使用 Tika 的檢測手段。

6

String translate (InputStream text, String targetLanguage)

此方法及其所有變種接受InputStream對象,並表示,我們希望我們的文字被翻譯語言的字符串,並把特定的文本所需的語言,嘗試自動檢測源語言。

解析器接口

這是Tika包的所有解析器類實現的接口。

package : org.apache.tika.parser

Interface : Parser

方法和說明

以下是TikaParser接口的重要方法:

S.No.

方法及描述

1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

這個方法將給定的文檔解析到XHTML和SAX事件序列。解析後,將放置在ContentHandler類的對象,並在元數據的類的對象的元數據,所提取的文件的內容。

Metadata 類

這個類實現了各種接口,如素材,地理,HttpHeaders,消息,微軟Office,氣候預測,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable接口,支持各種數據模型。下表列出了構造函數和這個類的方法及其說明。

package : org.apache.tika.metadata

class : Metadata

S.No.

構造方法及描述

1

Metadata()

構造一個新的,空的元數據。

S.No.

方法及描述

1

add (Property property, String value)

增加了一個元數據屬性/值映射到給定的文件。使用此功能,可以將該值設置爲一個屬性。

2

add (String name, String value)

增加了一個元數據屬性/值映射到給定的文件。使用這種方法,我們可以使用新名稱的值設置爲一個文件,從現有的元數據。

3

String get (Property property)

返回給定的元數據屬性的值(如果有的話)。

4

String get (String name)

返回給定元數據的名稱的值(如果有的話)。

5

Date getDate (Property property)

返回日期的元數據屬性的值。

6

String[] getValues (Property property)

返回的元數據屬性的所有的值。

7

String[] getValues (String name)

返回給定元數據的名稱的所有的值。

8

String[] names()

返回元數據對象的元數據元素的所有的名字。

9

set (Property property, Date date)

設置給定的元數據屬性的日期值

10

set(Property property, String[] values)

設置多個值到一個元數據屬性。

語言類標識符

此分類標識了特定內容的語言。下表列出了這個類的構造函數以及它們的描述。

package : org.apache.tika.language

class : Language Identifier

S.No.

構造器和說明

1

LanguageIdentifier (LanguageProfile profile)

實例化的語言標識符。在這裏必須通過一個LanguageProfile對象作爲參數。

2

LanguageIdentifier (String content)

這個構造函數可以通過從文本內容傳遞一個String實例化一個語言標識符

S.No.

構造器和說明

1

String getLanguage ()

返回給當前LanguageIdentifier對象的語言。