韩国日本三级在线观看,熟妇与小伙子matur老熟妇e,亚洲日韩精品无码专区加勒比,国产偷人妻精品一区,a级大胆欧美人体大胆666

綜合百科

決策樹分析法解析

2024-09-12 08:58:59 來源:互聯(lián)網(wǎng)轉(zhuǎn)載或整理

決策樹分類是數(shù)據(jù)挖掘中分類分析的一種算法。顧名思義,決策樹是基于“樹”結(jié)構(gòu)來進(jìn)行決策的,是人類在面臨決策問題時(shí)一種很自然的處理機(jī)制。例如下圖一個(gè)簡(jiǎn)單的判別買不買電腦

決策樹分類是數(shù)據(jù)挖掘中分類分析的一種算法。顧名思義,決策樹是基于“樹”結(jié)構(gòu)來進(jìn)行決策的,是人類在面臨決策問題時(shí)一種很自然的處理機(jī)制。例如下圖一個(gè)簡(jiǎn)單的判別買不買電腦的決策樹:





下圖是一個(gè)測(cè)試數(shù)據(jù)集,我們以此數(shù)據(jù)集為例,來看下如何生成一棵決策樹。


決策樹分類的主要任務(wù)是要確定各個(gè)類別的決策區(qū)域,或者說,確定不同類別之間的邊界。在決策樹分類模型中,不同類別之間的邊界通過一個(gè)樹狀結(jié)構(gòu)來表示。


通過以上分析,我們可以得出以下幾點(diǎn):

因此,決策樹建樹算法就是: 選擇樹根的過程



第一步,選擇屬性作為樹根

比較流行的屬性選擇方法: 信息增益

信息增益最大的屬性被認(rèn)為是最好的樹根

在選擇屬性之前,我們先來了解一個(gè)概念: 熵 什么是熵?什么是信息?如何度量他們?

熵 用來表示不確定性的大小

信息 用來消除不確定性

實(shí)際上,給定訓(xùn)練集S,信息增益代表的是在不考慮任何輸入變量的情況下確定S中任一樣本所屬類別需要的信息(以消除不確定性)與考慮了某一輸入變量X后確定S中任一樣本所屬類別需要的信息之間的差。差越大,說明引入輸入變量X后,消除的不確定性,該變量對(duì)分類所起的作用就越大,因此被稱為是好的分裂變量。換句話說,要確定S中任一樣本所屬類別,我們希望所需要的信息越少越好,而引入輸入變量X能夠減少分類所需要的信息,因此說輸入變量X為分類這個(gè)數(shù)據(jù)挖掘任務(wù)帶來了信息增益。信息增益越大,說明輸入變量X越重要,因此應(yīng)該被認(rèn)為是好的分裂變量而優(yōu)先選擇。

因此,計(jì)算信息增益的總的思路是:

1) 首先計(jì)算不考慮任何輸入變量的情況下要確定S中任一樣本所屬類別需要的熵Entropy(S);

2) 計(jì)算引入每個(gè)輸入變量X后要確定S中任一樣本所屬類別需要的熵Entropy (X,S);

3) 計(jì)算二者的差,Entropy (S) - Entropy (X, S),此即為變量X所能帶來的信息(增益),記為Gain(X,S)。

結(jié)合上面對(duì)于熵的解釋的文章里,我們能得出求熵的公式:


下圖很形象的解釋了熵代表的含義。


我們還以上面的一組數(shù)據(jù)來分析,信息增益具體應(yīng)該怎么算


根據(jù)上面的討論,我們先用公式計(jì)算不考慮任何輸入屬性時(shí),要確定訓(xùn)練集S中任一樣本所屬類別需要的熵。

此例子中,目標(biāo)屬性即buys_computer,有2個(gè)不同的取值,yes和no,因此有2個(gè)不同的類別(m=2)。設(shè)P對(duì)應(yīng)buys_computer=yes的情況,N對(duì)應(yīng)buys_computer=no的情況,則P有9個(gè)樣本,N有5個(gè)樣本。所以,總的熵就是:


即,E(p,n) = E(9,5) = 0.940

然后我們來求屬性age的熵,age有三個(gè)屬性,樣本個(gè)數(shù)分別為5,4,5,所以屬性age的熵就是:


最后,我們可以求出屬性age的信息增益為:


同樣的,我們可以分別求出income,student和credit_rating的信息增益


finally,我們可以得出屬性age的信息增益最大,所以,應(yīng)該用屬性age作為樹根。


確定好樹根之后,下一步我們還要按照剛才的步驟來確定下一個(gè)節(jié)點(diǎn)的左右子樹分別用哪個(gè)屬性作為樹根,直到最后得出完整的決策樹。

雖然決策樹分類算法可以快速的預(yù)測(cè)分類,但是也會(huì)有過度擬合(Overfitting)的問題。

有些生成的決策樹完全服從于訓(xùn)練集,太循規(guī)蹈矩,以至于生成了太多的分支,某些分支可能是一些特殊情況,出現(xiàn)的次數(shù)很少,不具有代表性,更有甚者僅在訓(xùn)練集中出現(xiàn),導(dǎo)致模型的準(zhǔn)確性很低。

通常采用剪枝的方式來克服 overfitting,剪枝有兩種方法:

先剪:構(gòu)造樹的過程中進(jìn)行修剪。不符合條件的分支則不建。

后剪: 整個(gè)樹生成之后進(jìn)行修剪


本文標(biāo)簽: 決策樹分析法

其他文章

  • 阜新銀行存款安全嗎 阜新銀行安全嗎
  • 錳酸鋰上市龍頭 錳酸鋰股票的簡(jiǎn)要分析
  • 海南礦業(yè)為什么不漲 海南礦業(yè)股票為什么不漲
  • 中華保險(xiǎn)是大公司嗎 中華保險(xiǎn)公司規(guī)模怎么樣
  • 590002分過紅嗎 中郵核心增長股票基金有分過紅嗎
  • 商貸轉(zhuǎn)公積金麻煩嗎 商轉(zhuǎn)公的流程有哪些呢
  • 完全不懂基金怎么入門 基金入門的方法
  • 豬肉行業(yè)龍頭股一覽表 豬肉行業(yè)股票的簡(jiǎn)要分析
  • 人民幣的單位換算 人民幣有什么單位
  • 央企有哪些 央企的主要內(nèi)容
  • 被判死刑剝奪政治權(quán)利終身(張子強(qiáng)綁架李澤楷始末)
  • 江疏影事件是不是真實(shí)的(她的故事真不簡(jiǎn)單)
  • 被封殺的明星有哪些(盤點(diǎn)被封殺的16個(gè)一線明星)
  • 黃曉明什么時(shí)候宣布離婚(兩人過往感情引關(guān)注)
  • 飛利浦mp3官網(wǎng)旗艦店(mp3播放器使用方法)
  • 林依晨生了男孩還是女孩(娛樂圈中幾位女星的求子之路)
  • 1949到2022中國的歷史進(jìn)程(中國的發(fā)展經(jīng)歷了哪些階段)
  • 大溪地在哪里(大溪地景點(diǎn)旅游攻略)
  • 高鐵乘務(wù)員工資待遇如何(列車員工資多少錢一個(gè)月)
  • 奧斯卡最佳男主角歷屆得主(奧斯卡歷屆獲獎(jiǎng)名單)
  • 黔ICP備19002813號(hào)

    主站蜘蛛池模板: 国产精品99久久久精品无码| 欧美黑人又粗又大高潮喷水| 成人免费无码大片a毛片软件| 中文字幕人妻无码系列第三区 | 日韩精品无码熟人妻视频| 国产一区二区三区在线观看免费| 精品免费一区二区在线| 大学生粉嫩无套流白浆| 欧美性性性性性色大片免费的| 性色av无码一区二区三区人妻| 国产欧美一区二区三区在线看| 亚洲日韩精品无码av海量| 国产av一区二区三区天堂综合网| 三年片免费观看大全国语动漫| 久久久久久久99精品免费观看| 亚洲国产精品第一区二区三区| 午夜人妻久久久久久久久| 亚洲av男人的天堂在线观看| 欧洲av无码放荡人妇网站| 日本熟妇浓毛hdsex| 国产色无码精品视频免费| 日本人妻人人人澡人人爽| 无套内谢的新婚少妇国语播放| 99久久人妻精品免费二区| 亚洲av永久无码天堂网| 婷婷开心色四房播播| 又色又爽又黄的视频网站| 野花社区观看在线www官网| 日韩在线中文高清在线资源| 变态另类先锋影音| 久久影院午夜伦手机不四虎卡| 推油少妇久久99久久99久久| 成人区人妻精品一区二区不卡| 99久久99这里只有免费费精品| 国产精品爽爽v在线观看无码| av中文字幕潮喷人妻系列| 女女女女bbbbbb毛片在线| 国产肥熟女视频一区二区三区| 亚洲国产精品无码中文字| 天堂国产+人+综合+亚洲欧美| 欧美伦费免费全部午夜最新|