數據挖掘的關鍵問題


數據挖掘是不那麼容易。所使用的算法是很複雜的。數據不可用在需要將其整合形成的各種異構數據源的一個地方。這些因素也造成了一些問題。在這裏,在本教程中,我們將討論有關重大問題:

  • 挖掘方法和用戶交互

  • 性能問題

  • 不同數據類型的問題

下圖描述的重大問題:

Data Mining issues

挖掘方法和用戶交互的問題

它是指下列類型的問題:

  • 挖掘不同類型的知識在數據庫 - 不同用戶的需要是不一樣的。和不同的用戶可能會在感興趣的不同種類的知識。因此,有必要進行數據挖掘涵蓋範圍廣泛的知識發現任務。

  • 知識的多層次的抽象交互挖掘 - 數據挖掘過程需要有互動的,因爲它可以讓用戶專注於搜索模式,提供基於返回的結果提煉數據挖掘請求。

  • 成立背景知識 - 以引導發現過程和要表達的發現的模式,背景知識都可以使用。背景知識可以用來表達發現的模式不僅在簡潔的條款在多個抽象層次.

  • 數據挖掘查詢語言和特殊數據挖掘 - 數據挖掘查詢語言,它允許用戶以描述特設挖掘任務時,應與數據倉庫查詢語言集成和高效,靈活的數據挖掘優化。

  • 演示數據挖掘結果的和可視化 - 一旦模式被發現,它需要被表達的高級語言,可視化表示。這個聲明應該是很容易理解的用戶。

  • 處理噪音或不完整的數據 - 數據清洗方法是必需的,可以處理噪聲,不完整的對象,同時挖掘數據的規律性。如果數據清洗方法是不是有那麼發現的模式的精度會很差。

  • 模式評估 - 它指的是該問題的興趣性。因爲無論他們代表的常識或缺乏新穎性發現的模式應該是有趣的。

性能問題

它指的是下列問題:

  • 效率和數據挖掘算法的可擴展性. - 爲了有效地從巨大量的數據庫中的數據中提取的信息,數據挖掘算法必須是高效的,可擴展的。

  • 並行,分佈式和增量挖掘算法. - 因素,如數據庫規模龐大的數據挖掘方法,數據分佈廣,複雜性和激勵的並行和分佈式數據挖掘算法的開發。這些算法將數據劃分爲分區,其中被進一步處理並行。然後從分區的結果合併。增量算法,而無需再次礦井中的數據從頭開始更新數據庫。

不同數據類型的問題

  • 處理關係和複雜類型的數據 - 該數據庫可包含複雜的數據對象,多媒體數據對象,空間數據,時間數據等,這是不可能的一個系統到礦井所有這些種類的數據。

  • 從異構數據庫和全球信息系統挖掘信息. - 該數據可在局域網或廣域網的不同的數據源。這些數據源可以被結構化,半結構化或非結構化的。因此,從他們身上挖掘知識增加了挑戰,數據挖掘。