文章詳情頁

Python 數據分析之逐塊讀取文本的實現

瀏覽：4日期：2022-07-02 11:00:12

背景

《利用Python進行數據分析》，第 6 章的數據加載操作 read_xxx，有 chunksize 參數可以進行逐塊加載。

經測試，它的本質就是將文本分成若干塊，每次處理 chunksize 行的數據，最終返回一個TextParser 對象，對該對象進行迭代遍歷，可以完成逐塊統計的合并處理。

示例代碼

文中的示例代碼分析如下：

from pandas import DataFrame,Seriesimport pandas as pd path=’D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv’# chunksize return TextParserchunker=pd.read_csv(path,chunksize=1000) # an array of Seriestot=Series([])chunkercount=0for piece in chunker:print ’------------piece[key] value_counts start-----------’#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key columnprint piece[’key’].value_counts()print ’------------piece[key] value_counts end-------------’#piece[key] value_counts is a Series ,key is the key column, and value is the key counttot=tot.add(piece[’key’].value_counts(),fill_value=0)chunkercount+=1 #last order the seriestot=tot.order(ascending=False)print chunkercountprint ’--------------’流程分析

首先，例子數據 ex6.csv 文件總共有 10000 行數據，使用 chunksize=1000 后，read_csv操作返回一個 TextParser 對象，該對象總共有10個元素，遍歷過程中打印 chunkercount驗證得到。

其次，每個 piece 對象是一個 DataFrame 對象，piece[’key’] 得到的是一個 Series 對象，默認是數值索引，值為 csv 文件中的 key 列的值，即各個字符串。

將每個 Series 的 value_counts 作為一個Series，與上一次統計的 tot 結果進行 add 操作，最終得到所有塊數據中各個 key 的累加值。

最后，對 tot 進行 order 排序，按降序得到各個 key 的值在 csv 文件中出現的總次數。

這里很巧妙了使用 Series 對象的 add 操作，對兩個 Series 執行 add 操作，即合并相同key：key相同的記錄的值累加，key不存在的記錄設置填充值為0。

輸出結果為：

Python 數據分析之逐塊讀取文本的實現

到此這篇關于Python 數據分析之逐塊讀取文本的實現的文章就介紹到這了,更多相關Python 逐塊讀取文本內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python 利用百度API識別圖片文字（多線程版）下一條：Python 2.6.6升級到Python2.7.15的詳細步驟

相關文章：

1. IntelliJ IDEA導入jar包的方法2. js實現貪吃蛇小游戲（加墻）3. 基于Go和PHP語言實現爬樓梯算法的思路詳解4. JAMon(Java Application Monitor)備忘記5. JVM之class文件結構6. Html5播放器實現倍速播放的方法示例7. asp知識整理筆記4（問答模式）8. Python中Anaconda3 安裝gdal庫的方法9. JSP實現百萬富翁猜數字游戲10. python對批量WAV音頻進行等長分割的方法實現

排行榜

					
					JAMon(Java Application Monitor)備忘記
基于Go和PHP語言實現爬樓梯算法的思路詳解
js實現貪吃蛇小游戲（加墻）
JVM之class文件結構
IntelliJ IDEA導入jar包的方法
實例代碼講解JAVA多線程
Android打包篇:Android Studio將代碼打包成jar包教程
Python3 操作 MySQL 插入一條數據并返回主鍵 id的實例
Python如何根據時間序列數據作圖
JSP實現百萬富翁猜數字游戲
asp知識整理筆記4（問答模式）