數據挖掘 - 挖掘文本數據


文本數據庫包括最龐大的收集文件。他們從幾個來源,如新聞文章,書籍,數字圖書館,電子郵件和網頁等。由於增加的信息量收集這些信息,文本數據庫正在迅速增長。在許多文本數據庫的數據結構半。

例如,一個文檔可能包含一些結構化的字段,如標題,作者,publishing_date等,但隨着結構數據的文檔也包含非結構化的文本成分,如摘要和內容。不知道什麼可能是在文檔中,因此很難制定有效的查詢,用於從數據分析和提取有用的信息。要比較的文件和排名的文檔的用戶需要的工具的重要性和相關性。因此,文本挖掘已經成爲流行和重要的主題,在數據挖掘。

信息檢索

信息檢索處理的信息從大量的基於文本的文檔檢索。一些數據庫系統通常不存在於信息檢索系統中,因爲兩個處理不同類型的數據。以下是信息檢索系統中的示例:

  • 在線圖書目錄系統

  • 在線文件管理系統

  • 站內搜索系統等。

注: 在信息檢索系統的主要問題是要根據用戶的查詢在一個文檔集合查找相關文檔。這種用戶的查詢是由一些關鍵字的描述信息需要。

在這種類型的搜索問題的用戶採取主動從集合拉的相關信息了。這是適當的時候用戶有臨時需要的信息即短期需要。但如果用戶有長期需要的信息,然後在檢索系統也可以主動採取任何新到達的信息項推給用戶。

這種獲取信息的被稱爲信息過濾。和相應的系統被稱爲過濾系統或推薦系統。

用於文本檢索的基本措施

我們需要檢查系統如何準確或正確的是當系統檢索了一些文件的用戶的輸入的基礎上。讓該組與查詢相關的文檔被表示爲{Relevant}和集合中檢索文檔的定義爲{}檢索。該組是相關和檢索的文檔可以被表示爲 {Relevant} ∩ {Retrieved}這可以被顯示在維恩圖中,如下所示:

Measures

有評估文本檢索的質量三項基本措施:

  • Precision

  • Recall

  • F-score

精密

精度是檢索到的文檔的相關的查詢是實際上的百分比。精度可以被定義爲:

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

召回

召回的文檔是相關的查詢,並在事實上檢索到的百分比。召回的定義爲:

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F-SCORE

F值是常用的權衡。信息檢索系統往往需要權衡精度或反之亦然。 F值被定義爲召回或精密的調和平均數如下:

F-score = recall x precision / (recall + precision) / 2