兩種取用 Kaggle 資料集的方法

Nancy SW
5 min readMar 15, 2020

--

Kaggle 是一個非常大的資料科學平台,對資料分析、機器學習有興趣的人來說,這裡有非常多東西可以挖寶。Kaggle 提供多種ML學習資源、也舉辦資料科學競賽,最重要的是平台上面有各式各樣已經整理乾淨的資料庫,對剛開始學習資料分析的新手來說,取得練習素材不是一件容易的事,Kaggle 的資源會是一個不錯的開始。

由於往後的文章會開始使用到 Kaggle 平台上的資料集,因此今天先介紹如何取用 Kaggle datasets,至於 Kaggle 的其他玩法大家有興趣的話可以再慢慢摸索,網路上不乏強者們的經驗分享,這邊就先帶過。

#1 使用 Kaggle 上的 Notebook

Step1. 在 Kaggle 網頁上輸入關鍵字搜尋,如 purchase、bank 等,點選datasets(藍色區),側邊欄還有更多篩選條件可以協助聚焦。

Step2. 點選有興趣的資料庫,以下取第一項 Supermarket sales 為例,底下會有資料的敘述、大綱,以及表格化的資料樣貌。

Step3. 點選右上角的 New Notebook > 選擇語言 > Create,就會進入 Notebook 介面。

Step4. 直接跑第一段,可以得到該 dataset 的位置

Step5. 將該 dataset 用 read_csv() 讀取出來,讀取方式輸入以下語法,接著就可以開始對 Dataframe (sales)進行資料分析。

# read_csv("輸入第一段跑出來的資料位置與檔名")
sales = pd.read_csv("../input/supermarket-sales/supermarket_sales - Sheet1.csv")
sales

#2 從 Google Colab 讀取 Kaggle datasets

如果你習慣在 Google Colab 進行分析,也可以依照以下步驟,把 Kaggle datasets 載進 Google Colab 使用。

Step1. 登入 Kaggle > My Account > Create New API Token,這步會在你的電腦下載一個 kaggle.json 檔案。

Step2. 開啟 Google Colab 輸入以下指令,並選擇剛剛下載好的 kaggle.json 檔案。

# Download kaggle data in Google Colab
! pip install -q kaggle
from google.colab import files
files.upload()

Step3. 依序輸入以下指令。

! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json

Step4. 一樣以 Supermarket sales datasets 為例,在 New Notebook 按鈕旁的索引點開,有個 Copy API command,按一下複製。

Step5. 回到 Google Colab 貼上,可以看到一行:

kaggle datasets download -d aungpyaeap/supermarket-sales

將該行 API Command 改寫成以下執行(加上驚嘆號),這樣會下載一包壓縮檔案,裡面可能包了一個或多個相關的資料檔。

! kaggle datasets download -d 'aungpyaeap/supermarket-sales'

Step6. 建議先執行以下語法建立一個資料夾,之後再將壓縮檔解壓縮進去,環境比較不容易亂。

# 建立一個名為supermarket-sales的資料夾! mkdir supermarket-sales       

Step7. 執行以下語法解壓縮,這時候就可以看到解壓縮後裡面的檔案名稱為 supermarket-sales/supermarket_sales — Sheet1.csv

# 將剛剛載下來的.zip壓縮檔解壓縮進supermarket-sales資料夾裡
! unzip supermarket-sales.zip -d supermarket-sales

Step8. 步驟如同第一種方法的Step5,將該檔案用 read_csv() 讀取出來,接著就可以開始對 Dataframe (sales)進行資料分析。

import pandas as pd
import numpy as np
sales = pd.read_csv('supermarket-sales/supermarket_sales - Sheet1.csv')
sales

參考網站

Easiest way to download kaggle data in Google Colab

Downloading Kaggle Datasets into Google Colab

Kaggle API on Github

--

--

Nancy SW
Nancy SW

Written by Nancy SW

It's never too late to start.

No responses yet