|
優點:在數據少的情況下仍然有效,可以處理多類別問題。
缺點:對于輸入數據的準備方式較為敏感。
適用數據類型:標稱型數據。
使用條件概率來分類
貝葉斯決策理論計算兩個概率p1(x,y)和p2(x,y):
·如果p1(x,y) > p2(x,y),那么屬于類別1;
·如果p2(x,y) > p1(x,y),那么屬于類別2。具體的,應用貝葉斯準則得到:p(ci|x,y)=p(x,y|ci)P(ci)/p(x,y)
由統計學得知,如果每個特征需要N個樣本,那么對于10個特征將需要N10個樣本,對于包含1000個特征的詞匯表將需要N1000個樣本。可以看到,所需要的樣本數會隨著特征數目增大而迅速增長。如果特征之間相互獨立那么樣本數就可以減少到Nx1000。
樸素貝葉斯分類器的兩個假設:特征之間相互獨立;每個特征同等重要。(有瑕疵,需改進)
貝葉斯分類模型:

貝葉斯分類器:

注意點:各特征量值很有可能接近于0,用1+p(w|c)來解決。
|
|