內(nèi)核嶺回歸(Kernel ridge regression (KRR)) [M2012] , 是組合使用了內(nèi)核技巧和嶺回歸(進行了l2正則化的最小二乘法)。因此,它所學習到的在空間中不同的線性函數(shù)是由不同的內(nèi)核和數(shù)據(jù)所導致的。對于非線性的內(nèi)核,它與原始空間中的非線性函數(shù)相對應。
通過 KernelRidge
學習到的模型與支持向量回歸(SVR
)是一樣的。但是他們使用了不同的損失函數(shù):內(nèi)核嶺回歸(KRR)使用了均方誤差損失(squared error loss), 而支持向量回歸(support vector regression, SVR)使用了 -insensitive損失, 兩則都使用了l2進行正則化。與[](https://scikit-learn.org.cn/view/782.html)相反, [](https://scikit-learn.org.cn/view/377.html) 的擬合可以以封閉形式進行,而且對于中等大小的數(shù)據(jù)集來說通常更快。在另一方面, 它所學習的模型是非稀疏的,因此在預測時間上來看比支持向量回歸(SVR)要慢, 而支持向量回歸對于會學習一個稀疏的模型。
下圖比較了人造數(shù)據(jù)集上的KernelRidge和 SVR
,這是一個包含正弦函數(shù)和每五個數(shù)據(jù)點就加上一個強噪聲的數(shù)據(jù)集。下面繪制了 KernelRidge
和SVR
的模型, 通過網(wǎng)格搜索優(yōu)化了(高斯**)**徑向基函數(shù)核函數(shù)(RBF核)的復雜度、正則化和帶寬。學習的函數(shù)是非常相似的;然而,都是網(wǎng)格搜索情況下, 擬合KernelRidge大約比擬合SVR快7倍。然而,100000目標值的預測要快三倍多,因為它已經(jīng)學習了一個稀疏模型,僅使用100個訓練數(shù)據(jù)點的1/3作為支持向量。
下一個圖比較了在不同大小的訓練集上KernelRidge和SVR的擬合和預測時間。對于中等訓練集,擬合KernelRidge比
SVR
快(小于1000個樣本);然而,對于更大的訓練集,SVR通常更好。關于預測的時間,在所有大小的訓練集上SVR比KernelRidge更快,因為學習SVR得到的是稀疏的解。請注意,稀疏的程度和預測的時間取決于SVR的參數(shù)?和C;?=0將對應于稠密模型。
參考
[2012]"機器學習:概率視角"Murphy, K. P. - chapter 14.4.3, pp. 492-493, The MIT Press, 2012
更多建議: