數據挖掘集羣分析

什麼是集羣？

集羣是一組屬於同一類的對象。換句話說，類似對象被分組在一個簇和異種分組在其他集羣。

集羣是製作小組抽象對象到類相似對象的過程。

你需要記住的

這裏是聚類數據挖掘的典型要求：

聚類方法可以分爲以下幾種：

假設我們給出n個對象的數據庫，該劃分方法構建數據的k個分區。每個分區將代表一個集羣和k≤| N。這意味着它將對數據進行分類成k個組，其中滿足下列要求：

要記住的要點：

這個方法創建給定數據對象的層次分解。我們可以的層次分解是如何形成如下基礎分層分類方法：

這種方法也被稱爲自下而上的方法。在此，我們開始與每個對象形成一個單獨的組。它不斷合併是彼此接近的物體或基團。它繼續這樣做，直到所有的組都合併成一個或直到終止條件成立。

這種方法也被稱爲自頂向下的方法。在此，我們開始都在同一個簇中的對象的。在連續的迭代中，簇被分裂成更小的簇。這是直到在一個集羣或終止條件的每個對象保存。

壞處

這個方法是剛性的，即，一旦合併或拆分完成後，它不可能被撤消。

這裏是用來提高層次聚類的質量的兩種方法：

此方法是基於密度的概念。其基本思路是將繼續增長給定的簇，只要在附近的密度超過某個閾值，即對於一個給定集羣內的每一個數據點，在給定簇的半徑必須包含點中的至少一個最小數目。

在這個對象一起從一個網格。對象空間量化成形成一個網格結構單元的數量有限。

優點

在該方法中，模型是假設每個簇並找到數據的給定模型的最佳擬合。此方法通過聚類的密度函數找出集羣。這反映了數據點的空間分佈。

這種方法也有助於自動決定基於標準的統計聚類數，取異常或噪聲考慮的方式。因此，產生強大的聚類方法。

在該方法中，聚類是由用戶或應用程序面向約束摻入執行。約束是指用戶期望或希望的聚類結果的屬性。約束給我們的集羣進程間通信的交互方式。該約束可以由用戶或應用程序的要求來指定。