TIKA架構

Tika應用層架構

應用程序員可以很容易地在他們的應用程序集成Tika。Tika提供了一個命令行界面和圖形用戶界面，使它比較人性化。

在本章中，我們將討論構成Tika架構的四個重要模塊。下圖顯示了Tika的四個模塊的體系結構：

Tika

每當一個文本文件被傳遞到Tika，它將檢測在其中的語言。它接受沒有語言的註釋文件和通過檢測該語言添加在該文件的元數據信息。

支持語言識別，Tika 有一類叫做語言標識符在包org.apache.tika.language及語言識別資料庫裏面包含了語言檢測從給定文本的算法。Tika 內部使用N-gram算法語言檢測。

Tika可以根據MIME標準檢測文檔類型。Tika默認MIME類型檢測是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分內容類型檢測。

內部Tika使用多種技術，如文件匹配替換，內容類型提示，魔術字節，字符編碼，以及其他一些技術。

org.apache.tika.parser 解析器接口是Tika解析文檔的主要接口。該接口從提取文檔中的文本和元數據，並總結了其對外部用戶願意寫解析器插件。

採用不同的具體解析器類，具體爲各個文檔類型，Tika 支持大量的文件格式。這些格式的具體類不同的文件格式提供支持，無論是通過直接實現邏輯分析器或使用外部解析器庫。

使用的Tika facade類是從Java調用Tika的最簡單和直接的方式，而且也沿用了外觀的設計模式。可以在 Tika API的org.apache.tika包Tika 找到外觀facade類。

通過實現基本用例，Tika作爲facade的代理。它抽象了的Tika庫的底層複雜性，例如MIME檢測機制，解析器接口和語言檢測機制，並提供給用戶一個簡單的接口來使用。

Tika支持多種功能：

Tika使用不同的檢測技術，檢測給它的文件的類型。

Detection

Tika有一個解析器庫，可以分析各種文檔格式的內容，並提取它們。然後檢測所述文檔的類型，它從解析器庫選擇的適當的分析器，並傳遞該文檔。不同類別的Tika方法來解析不同的文件格式。

Extraction

隨着內容，Tika提取具有相同的程序的文件的元數據中的內容的提取。對於某些文件類型，Tika有接口類提取元數據。

Extraction1

在內部，Tika如下像一個n-gram算法來檢測所述內容的語言的給定文檔中。Tika取決於類，如語言識別和Profiler的語言識別。

Detection1