Kaggle 是一個非常大的資料科學平台,對資料分析、機器學習有興趣的人來說,這裡有非常多東西可以挖寶。Kaggle 提供多種ML學習資源、也舉辦資料科學競賽,最重要的是平台上面有各式各樣已經整理乾淨的資料庫,對剛開始學習資料分析的新手來說,取得練習素材不是一件容易的事,Kaggle 的資源會是一個不錯的開始。
由於往後的文章會開始使用到 Kaggle 平台上的資料集,因此今天先介紹如何取用 Kaggle datasets,至於 Kaggle 的其他玩法大家有興趣的話可以再慢慢摸索,網路上不乏強者們的經驗分享,這邊就先帶過。
#1 使用 Kaggle 上的 Notebook
Step1. 在 Kaggle 網頁上輸入關鍵字搜尋,如 purchase、bank 等,點選datasets(藍色區),側邊欄還有更多篩選條件可以協助聚焦。
Step2. 點選有興趣的資料庫,以下取第一項 Supermarket sales 為例,底下會有資料的敘述、大綱,以及表格化的資料樣貌。
Step3. 點選右上角的 New Notebook > 選擇語言 > Create,就會進入 Notebook 介面。
Step4. 直接跑第一段,可以得到該 dataset 的位置
Step5. 將該 dataset 用 read_csv() 讀取出來,讀取方式輸入以下語法,接著就可以開始對 Dataframe (sales)進行資料分析。
# read_csv("輸入第一段跑出來的資料位置與檔名")
sales = pd.read_csv("../input/supermarket-sales/supermarket_sales - Sheet1.csv")
sales
#2 從 Google Colab 讀取 Kaggle datasets
如果你習慣在 Google Colab 進行分析,也可以依照以下步驟,把 Kaggle datasets 載進 Google Colab 使用。
Step1. 登入 Kaggle > My Account > Create New API Token,這步會在你的電腦下載一個 kaggle.json 檔案。
Step2. 開啟 Google Colab 輸入以下指令,並選擇剛剛下載好的 kaggle.json 檔案。
# Download kaggle data in Google Colab
! pip install -q kaggle
from google.colab import files
files.upload()
Step3. 依序輸入以下指令。
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
Step4. 一樣以 Supermarket sales datasets 為例,在 New Notebook 按鈕旁的索引點開,有個 Copy API command,按一下複製。
Step5. 回到 Google Colab 貼上,可以看到一行:
kaggle datasets download -d aungpyaeap/supermarket-sales
將該行 API Command 改寫成以下執行(加上驚嘆號),這樣會下載一包壓縮檔案,裡面可能包了一個或多個相關的資料檔。
! kaggle datasets download -d 'aungpyaeap/supermarket-sales'
Step6. 建議先執行以下語法建立一個資料夾,之後再將壓縮檔解壓縮進去,環境比較不容易亂。
# 建立一個名為supermarket-sales的資料夾! mkdir supermarket-sales
Step7. 執行以下語法解壓縮,這時候就可以看到解壓縮後裡面的檔案名稱為 supermarket-sales/supermarket_sales — Sheet1.csv
# 將剛剛載下來的.zip壓縮檔解壓縮進supermarket-sales資料夾裡
! unzip supermarket-sales.zip -d supermarket-sales
Step8. 步驟如同第一種方法的Step5,將該檔案用 read_csv() 讀取出來,接著就可以開始對 Dataframe (sales)進行資料分析。
import pandas as pd
import numpy as np
sales = pd.read_csv('supermarket-sales/supermarket_sales - Sheet1.csv')
sales
參考網站
Easiest way to download kaggle data in Google Colab