數據挖掘集羣分析


什麼是集羣?

集羣是一組屬於同一類的對象。換句話說,類似對象被分組在一個簇和異種分組在其他集羣。

什麼是聚類?

集羣是製作小組抽象對象到類相似對象的過程。

你需要記住的

  • 數據對象的一個集羣可以被視爲一組。

  • 而這樣做的聚類分析,我們首先根據數據相似性劃分的一組數據分組,然後將標籤分配給該組。

  • 聚類在分類的主要優點是,它是適應變化,並幫助該區分不同羣體挑出有用的功能。

聚類分析中的應用

  • 聚類分析被廣泛用於許多應用,如市場調查,模式識別,數據分析和圖像處理。

  • 羣集也可以幫助營銷人員發現不同的羣體在他們的客戶基礎。他們可以根據購買模式的客戶羣體特徵。

  • 在生物學領域,可以用於推導植物和動物分類法進行分類的基因相似的功能,並深入瞭解所固有的種羣結構。

  • 集羣也有助於識別類似土地利用在地球觀測數據庫的區域。它還有助於房子的羣體在一個城市,根據房子的類型,價值,地理位置識別。

  • 集羣也有助於在網絡上的信息發現文件分類。

  • 聚類也可用於異常檢測的應用,如檢測信用卡欺詐的。

  • 作爲數據挖掘功能聚類分析作爲一種工具來洞察數據,觀察每個簇的分佈性特點。

聚類在數據挖掘需求

這裏是聚類數據挖掘的典型要求:

  • 可擴展性 - 我們需要高度可擴展的聚類算法來處理大型數據庫。

  • 能夠處理不同類型的屬性 - 算法應該能夠在任何種類的數據,如基於間隔(數字)數據,類別,二進制數據被應用。

  • 集羣與屬性形狀的發現 - 聚類算法應能夠檢測任意形狀的簇。本不應該爲界,往往發現小尺寸的球狀星團只有距離測量。

  • 高維 - 該聚類算法不僅能夠處理低維數據,而且該高維空間。

  • 能夠處理噪聲數據 - 數據庫包含嘈雜,丟失或錯誤的數據。一些算法是這樣的數據敏感,並且可能導致質量差的集羣。

  • 解釋性 - 聚類結果應該是可解釋的,可理解的和可用的。

聚類方法

聚類方法可以分爲以下幾種:

  • 劃分方法

  • 分層方法

  • 基於密度的方法

  • 基於網格的方法

  • 基於模型的方法

  • 基於約束的方法

分割方法

假設我們給出n個對象的數據庫,該劃分方法構建數據的k個分區。每個分區將代表一個集羣和k≤| N。這意味着它將對數據進行分類成k個組,其中滿足下列要求:

  • 各組至少包含一個對象。

  • 每個對象必須屬於正好一個組。

要記住的要點:

  • 對於分區(K)的一個給定的數目,分區方法將創建一個初始劃分。

  • 然後,它使用了迭代搬遷技術,通過移動的物體從一組到其他改善分區。

層次方法

這個方法創建給定數據對象的層次分解。我們可以的層次分解是如何形成如下基礎分層分類方法:

  • 凝聚法

  • 分裂法

凝聚進近

這種方法也被稱爲自下而上的方法。在此,我們開始與每個對象形成一個單獨的組。它不斷合併是彼此接近的物體或基團。它繼續這樣做,直到所有的組都合併成一個或直到終止條件成立。

分裂的進近

這種方法也被稱爲自頂向下的方法。在此,我們開始都在同一個簇中的對象的。在連續的迭代中,簇被分裂成更小的簇。這是直到在一個集羣或終止條件的每個對象保存。

壞處

這個方法是剛性的,即,一旦合併或拆分完成後,它不可能被撤消。

方法以提高質量層次聚類

這裏是用來提高層次聚類的質量的兩種方法:

  • 在每個層次劃分進行認真分析對象的聯繫。

  • 首先使用分層凝聚算法組對象到微簇,然後在微簇進行宏簇整合分層結塊。

基於密度的方法

此方法是基於密度的概念。其基本思路是將繼續增長給定的簇,只要在附近的密度超過某個閾值,即對於一個給定集羣內的每一個數據點,在給定簇的半徑必須包含點中的至少一個最小數目。

基於網格的方法

在這個對象一起從一個網格。對象空間量化成形成一個網格結構單元的數量有限。

優點
  • 這種方法的主要優點是快速的處理時間。

  • 它僅依賴於細胞中的量化空間的每個維度的數目。

基於模型的方法

在該方法中,模型是假設每個簇並找到數據的給定模型的最佳擬合。此方法通過聚類的密度函數找出集羣。這反映了數據點的空間分佈。

這種方法也有助於自動決定基於標準的統計聚類數,取異常或噪聲考慮的方式。因此,產生強大的聚類方法。

基於約束的方法

在該方法中,聚類是由用戶或應用程序面向約束摻入執行。約束是指用戶期望或希望的聚類結果的屬性。約束給我們的集羣進程間通信的交互方式。該約束可以由用戶或應用程序的要求來指定。