水知識圖譜-資料處理腳本

需求


規格

  • Scripts 中要有使用的工具範例

設計


V0.1

  • 使用與管理本地與自訂 url 資料
  • 支援 Wikidata query service 

V0.0.2

  • bring up open data class with interactive mode support
  • 自動下載 開放資料列表,用於本地管理
  • 指定任何 dataset id 下載/管理有CSV 的資料集
  • 提供河川列表
  • 提供欄位跟資料集的對應表

開發思路
經由處理河川列表的開放資料後,想來了解關於河有哪些開放資料,然後就發現開放資料很多,連東西在哪都有點難找。開放資料網站上雖有滿不錯的查詢介面,但想要知道怎麼的輪廓,以及進階的搜尋與分析就滿麻煩的。於是下載了整個開放資料資料集列表。

由於資料量大,意外發現 google sheet 能夠使用 query 命令,達到類似的 SQL 存取方式。

由於在開發小工具時,發現 panda 的強大性,似乎能將一個 CSV 當成資料庫使用。
於是想來開發一個 open data 的 class, 讓存取分析上能夠方便

OpenDataMgr 簡單說明
OpenDataMgr 會下載開放資料列表 CSV, 類似在本地端擁有這個 table
經由 get_dataset 這個命令,可以將任何一個有 CSV 的 dataset 取回,建立本地的 table
因為主題需要也特別建立 river list, 欄位跟資料集的對應,以方便後續分析
由於使用方式接近開放人員,在資料庫中手動查詢與分析,所以先建構互動式的使用方式
也就是結合 python script 的強項以及 panda 的系統設計,直接在 script 環境下使用

並將使用經驗與範例,收錄在文件與 jupyter notebook(opendata_test.ipynb) 中,以方便使用者能稍微不需要認真搞懂 panda

使用與範例請參考後面研究筆記

V0.0.1

  • Basic application foundation
  • CFG, logging, CLI, plot, unit test, simple test
  • minor update for some simple test for opendata, wikidata
  • simple test for river_tree, colmap

V 未來

  • import JSON
  • DataMgr
  • LinkMap

實作