人工神經(jīng)網(wǎng)絡是一種仿照氮吹儀價格生物神經(jīng)網(wǎng)絡結(jié)構(gòu) 而建 立的非 線形 預測 模型,是數(shù) 據(jù)挖 掘中 比較常用的模型與算法。有關人工神經(jīng)網(wǎng)絡的概念、特征、拓撲結(jié)構(gòu)以及加權參數(shù)的確定學 習方法,我們已在第九章作了較詳細的論述。這 里只 是給 出在使 用人 工神經(jīng) 網(wǎng)絡 時需 要注 意的幾點事項: 第一,神經(jīng)網(wǎng)絡很難解釋。目前還沒有能對神經(jīng)網(wǎng)絡做出顯而易見解釋的方法學,因為 在數(shù)據(jù)的分析處理方面,神經(jīng)元網(wǎng)絡和統(tǒng)計 方法在 本質(zhì) 上有 很多差 別。神經(jīng) 網(wǎng)絡 的參 數(shù)要 比統(tǒng)計方法多很多。這么多參數(shù)通過各種各樣的 組合 方式來 影響 輸出 結(jié)果,以至 于很 難對 一個神經(jīng)網(wǎng)絡表示的模型做出直觀的解釋。實際 上神經(jīng) 網(wǎng)絡 也正 是當作“黑盒”來 用的,不 348 第十章 數(shù)據(jù)挖掘與Agent技術 用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。 第二,神經(jīng)網(wǎng)絡會學習過度。在訓練神經(jīng)網(wǎng) 絡時 一定 要恰當 的使 用一些 能嚴 格衡 量神 經(jīng)網(wǎng)絡的方法,如測試集方法和交叉驗證法等。這
主要是由于神經(jīng)網(wǎng)絡太靈活、可變參數(shù)太 多,如果給足夠的時間,它幾乎可以“記住”任何事情。 第三,除非問題非常簡單,訓練一個神經(jīng) 網(wǎng)絡可 能需 要相當 長的 時間 才能完 成。當然, 一旦神經(jīng)網(wǎng)絡建立好了,在運行它做某些預測時速度還是很快的。 第四,建立神經(jīng)網(wǎng)絡需要做的數(shù)據(jù)準備 工作量 很大。 有些人 可能 會對神 經(jīng)網(wǎng) 絡存 在一 些錯誤認識,認為不管用什么數(shù)據(jù),神經(jīng)網(wǎng)絡都能很好的工作并做出準確的預測。這種認識 是很不正確的。要想得到準確度高的模型,必須認真地對數(shù)據(jù)進行清洗、整理、轉(zhuǎn)換、選擇等 工作,對任何數(shù)據(jù)挖掘技術都是這樣,神經(jīng)網(wǎng)絡尤其注重這一點。比如神經(jīng)網(wǎng)絡要求所有的 輸入變量只能是0~1(或-1~+1)之間的數(shù)值型實數(shù),因 此,對 文本型 數(shù)據(jù),必須先做 必要 的映射變換處理之后,才能用作為神經(jīng)網(wǎng)絡的輸入數(shù)據(jù)。 2. 決策樹 決策樹是一種展示類似“在什么條件下會 得到 什么 值”這類 規(guī)則 的方法。 比如,在 貸款 申請中,要對申請的風險大小做出判斷,圖10.1 所示
是為 了解決 這個 問題而 建立 的一 棵決 策樹,從中可以看到?jīng)Q策樹的基本組成部分包括決策節(jié)點、分支和葉子節(jié)點。 圖10.1 一棵簡單的決策樹 決策樹中最上面的節(jié)點 稱為 根 節(jié)點,是 整個 決 策樹 的開 始。本 例中 根節(jié) 點 是“收 入 > ¥40000”,對此問題的不同回答產(chǎn)生了“是”和“否”兩個分支。決策樹 中每個 節(jié)點的子 節(jié)點 個數(shù)與決策樹所用的算法有關。如 CART 算法得到的決 策樹每 個節(jié)點有 兩個分支,這 種樹 稱為二叉樹。允許節(jié)點含有多于兩個子節(jié)點的樹稱為多叉樹。每個分支所連接的節(jié)點要么 是一個新的決策節(jié)點,要么是樹的葉子節(jié)點。 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術,可以用于對數(shù)據(jù)進行分析,同樣也可以用 來對某些事情進行 預測,比 如銀 行 職 員可 以 應 用 決 策樹 預 測 放 貸 的風 險。 常 用的 算 法 有