機(jī)械模型特征選擇是尋找眾多屬性的哪個(gè)子集合,能夠的解釋目標(biāo)變量與各個(gè)自變量的關(guān)系的過(guò)程。
你可以根據(jù)多種標(biāo)準(zhǔn)選取有用的特征,例如:
所在領(lǐng)域知識(shí):根據(jù)在此領(lǐng)域的經(jīng)驗(yàn),可以選出對(duì)目標(biāo)變量有更大影響的變量。
可視化:正如這名字所示,可視化讓變量間的關(guān)系可以被看見(jiàn),使特征選擇的過(guò)程更輕松。
統(tǒng)計(jì)參數(shù):我們可以考慮 p 值,信息價(jià)值(information values)和其他統(tǒng)計(jì)參數(shù)來(lái)選擇正確的參數(shù)。
PCA:這種方法有助于在低維空間表現(xiàn)訓(xùn)練集數(shù)據(jù)。這是一種降維技術(shù)。 降低數(shù)據(jù)集維度還有許多方法:如因子分析、低方差、高相關(guān)、前向后向變量選擇及其他。