文章詳情頁

python - sklearn如何訓練大規模數據集

瀏覽：151日期：2022-06-27 16:56:25

問題描述

問題一：

現在我有40多萬條的數據，需要對該數據使用某種機器學習分類算法建立模型，遇到的問題是因為數據過于龐大不能一次性的進行數據的讀取，所以想問一下該如何處理數據？

問題二：

關于sklearn交叉驗證有個疑問：假如我有10000個訓練數據，由交叉驗證原理可以將這一萬個訓練數據集使用KFold方法分成n組訓練(train數據占0.7)，現在搞不明白的就是我對第一組的訓練集進行fit()，然后對測試集進行預測驗證得到預測的準確率，但是得到預測準確率有什么用呢？會對下一次的訓練有影響嗎？還有就是上一次的訓練模型會被用到下一次的fit()函數嗎？

問題解答

回答1：

我最近在學大數據的數據挖掘與分析這一塊，對于問題一，我有個思路你參考一下:既然無法一次性讀取，可以建立分布式數據模型，分次讀取數據，確定地址datanode（可以是某個變量名），建立一個namenode（名字與該地址對應的表），然后獲取數據的時候，先在namenode中確認地址（需要的是哪一個變量對應的數據），再訪問該地址獲取數據進行處理。由于初學，我只是提供下我個人的思路，答案不唯一，僅供參考，各路大牛不喜勿噴。

回答2：

40萬沒多少啊，頂多幾G吧......如果真的是內存小到8G也沒有，那還是得看你具體場景啊，舉個列子，單純算tf-idf，一個generator，內存中只有最后的tf-idf字典。

交叉驗證只是為了選取誤差最小的一個，你提到的前面的影響后面，是boosting的概念。

回答3：

這種問答網站最好是一個問題一個坑，必要時兩個分開的問題給連結連相關性，避免 Double-barreled question

(1) 見How to optimize for speed，你會發現有很多可以調控試驗的方式，包括(a)儘量使用簡單的演算法計巧 (b)針對現實狀況做記憶體使用及速度的側寫 (c)試著用Numpy陣列取代所有nested loops (d)必要時使用Cython Wrapper 去調更有效率的C/C++函數庫。這些只是基本原則和方向，實際上還是要看你要操作問題的瓶頸分析，是速度還是空間，把代碼最佳化後再考慮是否要用平行計算等手段

(2) 你這問題得區分數學和實證上要求的差異，希望你對過擬合(overfitting)及 underfitting的實證及數學意義有所掌握，這裡的問答還蠻不錯的，讀一下有幫助的。

Python 編程

上一條：selenium - 請教一下 Python 爬蟲工具下一條：python - 爬取微信公眾號文章需要輸入驗證碼問題

相關文章：

1. docker - 如何修改運行中容器的配置2. python3.x - python連oanda的模擬交易api獲取json問題第五問3. nignx - docker內nginx 80端口被占用4. javascript - js代碼獲取驗證碼倒計時問題5. java - SSH框架中寫分頁時service層中不能注入分頁類6. 為什么我ping不通我的docker容器呢？？？7. docker-machine添加一個已有的docker主機問題8. 域名解析在Ubuntu64 9.04計算機上的Java應用程序中不起作用所有其他軟件可以正確解析DNS9. 關于docker下的nginx壓力測試10. angular.js - angular內容過長展開收起效果

排行榜

					
					docker - 如何修改運行中容器的配置
nignx - docker內nginx 80端口被占用
python3.x - python連oanda的模擬交易api獲取json問題第五問
關于docker下的nginx壓力測試
為什么我ping不通我的docker容器呢？？？
docker-machine添加一個已有的docker主機問題
angular.js - angular內容過長展開收起效果
javascript - js代碼獲取驗證碼倒計時問題
java - SSH框架中寫分頁時service層中不能注入分頁類
域名解析在Ubuntu64 9.04計算機上的Java應用程序中不起作用所有其他軟件可以正確解析DNS
docker鏡像push報錯
				

熱門標簽

久久r热视频,国产午夜精品一区二区三区视频,亚洲精品自拍偷拍,欧美日韩精品二区

python - sklearn如何訓練大規模數據集