數據挖掘分類方法

在這裏，在這個教程中，我們將討論有關的其他分類方法，如遺傳算法，粗糙集方法和模糊集途徑。

遺傳算法

遺傳算法的思想是從自然進化而得。在遺傳算法首先初始種羣的建立。這個初始羣體包括隨機生成的規則。我們可以通過比特串代表的每個規則。

例如，假設在給定的訓練集的樣本由兩個布爾屬性，例如A1和A2中所述。而這個給定的訓練集包含兩個類，如C1和C2。

我們可以將規則編碼如果A1和A2不那麼C2爲位串100。在該位表示兩個最左邊的位所代表的屬性分別爲A1和A2。

同樣的規則IF NOT A1和A2的不那麼C1可以被編碼爲001。

注意：如果屬性的K值，其中K>2，那麼我們就可以使用K比特編碼的屬性值。類也編碼中相同的方式。

要記住的要點：

發現內不精確和噪聲數據結構的關係，我們可以用粗糙集。

注意：這種方法只能在離散值屬性被應用。因此，連續屬性必須在使用前進行離散化。

粗糙集理論的基礎上，建立等價類的給定的訓練數據中。形成的等價類中的元組是不可分辨。這意味着樣品是相同的 wrt 來描述數據的屬性。

有一些班級在給定現實世界的數據，而不能在可用的屬性方面加以區分。我們可以用粗糙集大致定義這些類。

對於一個給定的類，C粗糙集的定義是由兩套近似如下：

下圖顯示了C類的上，下近似：

Approximation

模糊集理論也被稱爲可能性理論。這個理論是由盧特菲扎德於1965年。這種方法是一種替代二值邏輯。這種理論使我們能夠在工作的抽象程度高;這個理論也爲我們提供手段來處理數據的不精確的測量。

模糊集理論還允許處理模糊或不精確的事實。例如是一套高收入的成員是不準確的（例如，如果50,000元，高那麼約爲49,00048 000美元）。不像傳統的CRISP組，其中任一元素屬於S或它的補碼，但在模糊集理論中的元素可以屬於多於一個模糊集合。

例如，收入值49000美元同時屬於中，高模糊集，但程度有所不同。這個收入值模糊集符號如下：

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

其中 m 爲隸屬函數，操作上分別模糊集medium_income 和 high_income。這個符號可以圖解顯示如下：

Fuzzy