文章詳情頁

python Polars庫的使用簡介

瀏覽：2日期：2022-06-21 18:33:16

大家好，我是小F～

很多人在學習數據分析的時候，肯定都會用到Pandas這個庫，非常的實用！

從創建數據到讀取各種格式的文件(text、csv、json)，或者對數據進行切片和分割組合多個數據源，Pandas都能夠很好的滿足。

Pandas最初發布于2008年，使用Python、Cython和C編寫的。是一個超級強大、快速和易于使用的Python庫，用于數據分析和處理。

當然Pandas也是有不足之處的，比如不具備多處理器，處理較大的數據集速度很慢。

今天，小F就給大家介紹一個新興的Python庫——Polars。

使用語法和Pandas差不多，處理數據的速度卻比Pandas快了不少。

一個是大熊貓，一個是北極熊～

GitHub地址：https://github.com/ritchie46/polars

使用文檔：https://ritchie46.github.io/polars-book/

Polars是通過Rust編寫的一個庫，Polars的內存模型是基于Apache Arrow。

Polars存在兩種API，一種是Eager API，另一種則是Lazy API。

其中Eager API和Pandas的使用類似，語法差不太多，立即執行就能產生結果。

python Polars庫的使用簡介

而Lazy API就像Spark，首先將查詢轉換為邏輯計劃，然后對計劃進行重組優化，以減少執行時間和內存使用。

安裝Polars，使用百度pip源。

# 安裝polarspip install polars -i https://mirror.baidu.com/pypi/simple/

安裝成功后，開始測試，比較Pandas和Polars處理數據的情況。

使用某網站注冊用戶的用戶名數據進行分析，包含約2600萬個用戶名的CSV文件。

文件已上傳公眾號，獲取方式見文末。

import pandas as pddf = pd.read_csv(’users.csv’)print(df)

數據情況如下。

python Polars庫的使用簡介

此外還使用了一個自己創建的CSV文件，用以數據整合測試。

import pandas as pddf = pd.read_csv(’fake_user.csv’)print(df)

得到結果如下。

python Polars庫的使用簡介

首先比較一下兩個庫的排序算法耗時。

import timeitimport pandas as pdstart = timeit.default_timer()df = pd.read_csv(’users.csv’)df.sort_values(’n’, ascending=False)stop = timeit.default_timer()print(’Time: ’, stop - start)-------------------------Time: 27.555776743218303

可以看到使用Pandas對數據進行排序，花費了大約28s。

import timeitimport polars as plstart = timeit.default_timer()df = pl.read_csv(’users.csv’)df.sort(by_column=’n’, reverse=True)stop = timeit.default_timer()print(’Time: ’, stop - start)-----------------------Time: 9.924110282212496

Polars只花費了約10s，這意味著Polars比Pandas快了2.7倍。

下面，我們來試試數據整合的效果，縱向連接。

import timeitimport pandas as pdstart = timeit.default_timer()df_users = pd.read_csv(’users.csv’)df_fake = pd.read_csv(’fake_user.csv’)df_users.append(df_fake, ignore_index=True)stop = timeit.default_timer()print(’Time: ’, stop - start)------------------------Time: 15.556222308427095

使用Pandas耗時15s。

import timeitimport polars as plstart = timeit.default_timer()df_users = pl.read_csv(’users.csv’)df_fake = pl.read_csv(’fake_user.csv’)df_users.vstack(df_fake)stop = timeit.default_timer()print(’Time: ’, stop - start)-----------------------Time: 3.475433263927698

Polars居然最使用了約3.5s，這里Polars比Pandas快了4.5倍。

通過上面的比較，Polars在處理速度上表現得相當不錯。

可以是大家在未來處理數據時，另一種選擇～

當然，Pandas目前歷時12年，已經形成了很成熟的生態，支持很多其它的數據分析庫。

Polars則是一個較新的庫，不足的地方還有很多。

如果你的數據集對于Pandas來說太大，對于Spark來說太小，那么Polars便是你可以考慮的一個選擇。

文件地址：

鏈接:https://pan.baidu.com/s/14fFNOPomQe38RLbAUq5W7w 密碼:nfqv

以上就是python Polars庫的使用簡介的詳細內容，更多關于python Polars庫的使用的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python實現簡單倒計時功能下一條：python基礎之匿名函數詳解

相關文章：

1. Python編寫nmap掃描工具2. PHP設計模式（四）原型模式Prototype實例詳解【創建型】3. python 爬取嗶哩嗶哩up主信息和投稿視頻4. PHP擴展之APC——Alternative PHP Cache(可選PHP緩存)5. ASP.NET MVC前臺動態添加文本框并在后臺使用FormCollection接收值6. 如何基于python3和Vue實現AES數據加密7. 10個提供免費PHP腳本下載的網站8. Java向Runnable線程傳遞參數方法實例解析9. Java 基于UDP協議實現消息發送10. php5.6不能擴展redis.so的解決方法

排行榜

					
					PHP中Session會話的使用和分析
php5.6不能擴展redis.so的解決方法
10個提供免費PHP腳本下載的網站
Java向Runnable線程傳遞參數方法實例解析
PHP擴展之APC——Alternative PHP Cache(可選PHP緩存)
SpringBoot 開發提速神器 Lombok+MybatisPlus+SwaggerUI
ASP.NET MVC前臺動態添加文本框并在后臺使用FormCollection接收值
使用idea 去除 html 代碼前的行號和空行的方法詳解
vue開發chrome插件，實現獲取界面數據和保存到數據庫功能
Django通過設置CORS解決跨域問題
js實現跳一跳小游戲