手冊簡介

Pandas是一個開源的,BSD許可的庫,為Python編程語言提供高性能,易于使用的數(shù)據(jù)結構和數(shù)據(jù)分析工具。 Pandas是NumFOCUS贊助的項目。這將有助于確保Pandas成為世界級開源項目的成功,并有可能捐贈給該項目。

手冊說明

Pandas 是 Python 的核心數(shù)據(jù)分析支持庫,提供了快速、靈活、明確的數(shù)據(jù)結構,旨在簡單、直觀地處理關系型、標記型數(shù)據(jù)。Pandas 的目標是成為 Python 數(shù)據(jù)分析實踐與實戰(zhàn)的必備高級工具,其長遠目標是成為最強大、最靈活、可以支持任何語言的開源數(shù)據(jù)分析工具。經(jīng)過多年不懈的努力,Pandas 離這個目標已經(jīng)越來越近了。

Pandas 適用于處理以下類型的數(shù)據(jù):

  • 與 SQL 或 Excel 表類似的,含異構列的表格數(shù)據(jù);
  • 有序和無序(非固定頻率)的時間序列數(shù)據(jù);
  • 帶行列標簽的矩陣數(shù)據(jù),包括同構或異構型數(shù)據(jù);
  • 任意其它形式的觀測、統(tǒng)計數(shù)據(jù)集, 數(shù)據(jù)轉入 Pandas 數(shù)據(jù)結構時不必事先標記。

Pandas 的主要數(shù)據(jù)結構是 Series(一維數(shù)據(jù))與 DataFrame(二維數(shù)據(jù)),這兩種數(shù)據(jù)結構足以處理金融、統(tǒng)計、社會科學、工程等領域里的大多數(shù)典型用例。對于 R 用戶,DataFrame 提供了比 R 語言 data.frame 更豐富的功能。Pandas 基于 NumPy 開發(fā),可以與其它第三方科學計算支持庫完美集成。

Pandas 就像一把萬能瑞士軍刀,下面僅列出了它的部分優(yōu)勢 :

  • 處理浮點與非浮點數(shù)據(jù)里的缺失數(shù)據(jù),表示為 NaN;
  • 大小可變:插入或刪除 DataFrame 等多維對象的列;
  • 自動、顯式數(shù)據(jù)對齊:顯式地將對象與一組標簽對齊,也可以忽略標簽,在 Series、DataFrame 計算時自動與數(shù)據(jù)對齊;
  • 強大、靈活的分組(group by)功能:拆分-應用-組合數(shù)據(jù)集,聚合、轉換數(shù)據(jù);
  • 把 Python 和 NumPy 數(shù)據(jù)結構里不規(guī)則、不同索引的數(shù)據(jù)輕松地轉換為 DataFrame 對象;
  • 基于智能標簽,對大型數(shù)據(jù)集進行切片、花式索引、子集分解等操作;
  • 直觀地合并(merge)、**連接(join)**數(shù)據(jù)集;
  • 靈活地重塑(reshape)、**透視(pivot)**數(shù)據(jù)集;
  • 軸支持結構化標簽:一個刻度支持多個標簽;
  • 成熟的 IO 工具:讀取文本文件(CSV 等支持分隔符的文件)、Excel 文件、數(shù)據(jù)庫等來源的數(shù)據(jù),利用超快的 HDF5 格式保存 / 加載數(shù)據(jù);
  • 時間序列:支持日期范圍生成、頻率轉換、移動窗口統(tǒng)計、移動窗口線性回歸、日期位移等時間序列功能。

這些功能主要是為了解決其它編程語言、科研環(huán)境的痛點。處理數(shù)據(jù)一般分為幾個階段:數(shù)據(jù)整理與清洗、數(shù)據(jù)分析與建模、數(shù)據(jù)可視化與制表,Pandas 是處理數(shù)據(jù)的理想工具。

其它說明:

  • Pandas 速度很快。Pandas 的很多底層算法都用 Cython 優(yōu)化過。然而,為了保持通用性,必然要犧牲一些性能,如果專注某一功能,完全可以開發(fā)出比 Pandas 更快的專用工具。
  • Pandas 是 statsmodels 的依賴項,因此,Pandas 也是 Python 中統(tǒng)計計算生態(tài)系統(tǒng)的重要組成部分。
  • Pandas 已廣泛應用于金融領域。

領取免費資料

掃描下方二維碼或打開微信搜一搜“w3cschool編程獅”關注公眾號回復關鍵詞【Python123】或者【Python資料包】免費領取 Python 學習資料,包含軟件安裝包,電子書、思維導圖等

w3cschool編程獅微信公眾號


在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號