Loading...
水知識圖譜-資料處理腳本
需求
規格
Scripts 中要有使用的工具範例
設計
V0.1
使用與管理本地與自訂 url 資料
支援 Wikidata query service
V0.0.2
bring up open data class with interactive mode support
自動下載 開放資料列表,用於本地管理
指定任何 dataset id 下載/管理有CSV 的資料集
提供河川列表
提供欄位跟資料集的對應表
開發思路
經由處理河川列表的開放資料後,想來了解關於河有哪些開放資料,然後就發現開放資料很多,連東西在哪都有點難找。開放資料網站上雖有滿不錯的查詢介面,但想要知道怎麼的輪廓,以及進階的搜尋與分析就滿麻煩的。於是下載了整個開放資料資料集列表。
由於資料量大,意外發現 google sheet 能夠使用 query 命令,達到類似的 SQL 存取方式。
由於在開發小工具時,發現 panda 的強大性,似乎能將一個 CSV 當成資料庫使用。
於是想來開發一個 open data 的 class, 讓存取分析上能夠方便
OpenDataMgr 簡單說明
OpenDataMgr 會下載開放資料列表 CSV, 類似在本地端擁有這個 table
經由 get_dataset 這個命令,可以將任何一個有 CSV 的 dataset 取回,建立本地的 table
因為主題需要也特別建立 river list, 欄位跟資料集的對應,以方便後續分析
由於使用方式接近開放人員,在資料庫中手動查詢與分析,所以先建構互動式的使用方式
也就是結合 python script 的強項以及 panda 的系統設計,直接在 script 環境下使用
並將使用經驗與範例,收錄在文件與 jupyter notebook(
opendata_test.ipynb
) 中,以方便使用者能稍微不需要認真搞懂 panda
使用與範例請參考後面研究筆記
V0.0.1
Basic application foundation
CFG, logging, CLI, plot, unit test, simple test
minor update for some simple test for opendata, wikidata
simple test for river_tree, colmap
V 未來
import JSON
DataMgr
LinkMap
實作
https://github.com/Linked-Open-Data-LOD-Taiwan/ontologies/tree/master/script
Please turn on JavaScript to use Paper in all of its awesomeness. ^_^
需求
規格
設計
V0.1
V0.0.2
V0.0.1
V 未來
實作