久久久久久久999_99精品久久精品一区二区爱城_成人欧美一区二区三区在线播放_国产精品日本一区二区不卡视频_国产午夜视频_欧美精品在线观看免费

 找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

搜索
查看: 2820|回復: 0
打印 上一主題 下一主題
收起左側

決策樹算法詳解

[復制鏈接]
跳轉到指定樓層
樓主
ID:90014 發表于 2015-9-15 14:56 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式



    決策樹算法是一種逼近離散函數值的方法,是一種典型的分類方法。
決策樹算法構造決策樹來發現數據中蘊涵的分類規則。如何構造精度高,規模小的決策樹是決策樹算法的核心內容。一般情況下分兩步進行,
1.決策樹的生成。
2.決策樹的剪枝。(對上一個階段生成的決策樹進行檢驗,校正和修下的過程,方法:使用測試數據集校驗1中生成的決策樹,將那些影響準確性的分枝剪除)
典型算法
ID3算法,此算法目的在于減少樹的深度。但是忽略了葉子數目的研究。
C4.5算法,在ID3算法的基礎上進行了改進,對于預測變量的缺值處理,剪枝技術,派生規則等方面做了較大的改進,既適合于分類問題,又適合于回歸問題。總結:產生的分類規則易于理解,準確率較高。不過在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,在實際應用中會導致算法低效。
決策樹算法的優點如下:
1.分類精度高;
2.生成的模式簡單;
3.對噪聲數據有很好的健壯性。
以上為概念總結。
——————————————————————————————————————————————————————————
-信息增益
  在劃分數據集之前后信息發生的變化稱之為信息增益,計算每個特征值劃分數據集獲得的信息增益,獲得信息增益最高的特征就是最好的選擇。
計算方法(香農熵)
  熵定義為信息的期望值。計算公式如下:
符號xi的信息定義為l(xi)=-log2p(xi),其中p(xi)是選擇該分類的概率。(各分類在總實例中得比例)
所有類別所有可能值包含的信息期望值H=-∑ni=1p(xi)log2p(xi),其中n分類的數目。

-劃分數據集
對每個特征劃分數據集的結果計算一次信息熵,然后判斷按照哪個特征劃分數據集是最好的劃分方式。
  增益=元數據的熵-按特征量劃分的熵   -->增益越大 劃分越優
-遞歸構建決策樹
  工作原理如下:
1.得到原始數據集
2.基于好的屬性劃分數據集
3.特征值多于兩個的情況下。可能存在大于兩個分支的數據集劃分。第一次劃分后,數據被向下傳遞到樹分支的下一個節點,在這個節點上再次劃分數據。
遞歸的結束條件:1.遍歷完所有劃分數據集的屬性 2 每個分支下得所有實例都具有相同的分類。

后續:改進算法的總結和代碼整理



分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏 分享淘帖 頂 踩
回復

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

手機版|小黑屋|51黑電子論壇 |51黑電子論壇6群 QQ 管理員QQ:125739409;技術交流QQ群281945664

Powered by 單片機教程網

快速回復 返回頂部 返回列表
主站蜘蛛池模板: 亚洲精品一区二区三区丝袜 | 视频一区二区在线观看 | 91.xxx.高清在线 | 欧美黄色一级毛片 | 精品熟人一区二区三区四区 | 91国内精精品久久久久久婷婷 | 在线观看免费av片 | 污片在线免费观看 | 精品视频国产 | 波多野结衣二区 | 免费看国产片在线观看 | 性色av一区 | 中文字幕日韩av | 99精品一区二区 | 国产乱码久久久久久一区二区 | 亚洲精品99999 | 亚洲国产精品成人无久久精品 | 97久久精品午夜一区二区 | 久久逼逼 | 欧美一二三 | 日本欧美国产在线观看 | 一级电影免费看 | 一区二区免费 | 国产一区二区在线免费视频 | 中文天堂网 | 成人黄色在线观看 | 亚洲精品在线观看视频 | 免费观看一级特黄欧美大片 | 午夜精品久久久久久不卡欧美一级 | 国产精品久久久久久久久婷婷 | 精产国产伦理一二三区 | 欧美久 | 精品毛片 | 97免费在线观看视频 | 欧美bondage紧缚视频 | 久久精品高清视频 | 成人免费视频网站在线看 | 亚洲 中文 欧美 日韩 在线观看 | 欧美一级视频免费看 | 欧美激情一区二区三区 | 狠狠干狠狠操 |