從 SQL 到 Pandas — Select/ Distinct/ Where

5 min readMar 1, 2020

前言

Pandas、Numpy 是 Python 的函式庫(library)，他們提供了許多比 SQL 更強大、更便利的工具來進行資料處理，若是對 SQL 稍有概念，Pandas 也就不難上手。這一系列文章要分享的是從 SQL 轉移到 Pandas 時，相對應的語法使用方式。

以下會使用 Google Colab 作為練習環境，進去以後點選左上角的 File > New Notebook 就可以開始練習了。一開始要先匯入這兩個函式庫，並建一個隨機的 DataFrame 作為待會練習的範例。

import pandas as pd
import numpy as np
df = pd.util.testing.makeMixedDataFrame()         # 隨機生成DataFrame

#1 — SELECT

這是 SQL 中最基本的語法架構，意思是從這張表格(table_name)中，取出三個欄位(column1, column2, column3)。

SELECT column1, column2, column3
FROM table_name

在 Pandas 中，假設我們想從上面隨機生成的 DataFrame 裡取出 A、C 兩個欄位，使用下列語法就可以輕鬆完成：

df = pd.util.testing.makeMixedDataFrame()
df[['A', 'C']]                                       # 列出要選出的欄位

#2 — WHERE

如果希望篩選出的資料要符合特定條件，在 SQL 中應使用以下語法，意思是從這張表格(table_name)中，取出三個欄位(column1, column2, column3)，且篩選出的資料應符合兩個條件(condition1, condition2)。

SELECT column1, column2, column3
FROM table_name
WHERE condition1
AND condition2

在 Pandas 中要篩選資料，則有幾種不同的方法：

>, <, ==, !=

df[df['B'] == 1.0]                 # 選出B欄位為1.0的資料
df[df['C'] == "foo4"]              # 選出C欄位為foo4的資料
df[df['D'] >= "2009-01-05"]        # 選出D欄位日期在2009/1/5以後的資料

2. isin()

df[df['C'].isin(["foo2","foo3","foo4"])]        # 選出C欄位為所列的資料

3. between()

df[df["D"].between("2009-01-03","2009-01-06")]  # 選出日期在範圍內的資料
df[df['A'].between(1.0,3.0)]            # 選出A欄位數值介於1.0-3.0的資料

如果同時有兩個以上的條件需要滿足，可以利用以下寫法推廣：

cond1 = df['A'] >= 2.0                               # 一：A > 2.0
cond2 = df['D'].between("2009-01-03","2009-01-06")   # 二：日期符合區間
df[(cond1 & cond2)]                           # 應同時滿足條件一與條件二