作為一個「資料科學家的圖書館」,這裡嘗試整理所有跟資料科學(Data Science)相關的工具、操作指南、有用的學習資源以及推薦閱讀。希望讓對資料科學有興趣的人,能用最有效率的方式,最好的來源,來學習實際能在業界應用的各種技能 🤓
Dublino, Irlanda (photo by Giammarco Boscaro)
以下是目前預計先整理的主題:
主題名稱 | 簡單描述 |
---|---|
Airflow | 工作流程管理系統,常見於資料工程、用來建置、排程資料管道 & ETL 處理 |
Docker | 抽象化應用程式 / 分析環境的建置,讓資料科學家不再需要苦惱建置環境 |
Presto | 分散式 SQL 查詢引擎,利用 ANSI SQL 快速地存取各種資料來源 |
Bash | 直接與電腦 / 伺服器溝通的文本介面,熟悉常用指令讓資料科學家效率百倍 |
Git | 版本控制程式碼 / 專案結果,所有軟體開發者以及資料科學家的必備工具 |
Anaconda | 資料科學領域最出名的開源的 Python / R Distribution,簡化 package 管理 |
Hive | 建構在 Apache Hadoop 上的資料倉儲軟體,可使用類 SQL 對多樣資料源進行分析 |
Jupyter Notebook | 一個允許資料科學家建立並分享程式碼、公式以及分析圖表的開源 Web 應用 |
Selenium | Web 應用的測試工具,可用來實作網路爬蟲,擷取網路上的任何資訊 |
Superset | 開源企業商業智慧的 Web 應用,提供大量資料視覺化工具及 SQL 查詢 |
Python, R, 分析技巧以及機器學習等主題涵蓋範圍廣大,將另外更新。
各個跟資料科學相關的主題 / 工具都會有一個自己的文件夾以方便管理,如工作流程管理工具 Airflow。可以直接搜尋或者查看主題列表以進一步了解。
雖然每個主題因為本身性質的不同,內容可能有所差異,
大致上都會盡量涵蓋以下內容:
- ❔ 為什麼(Why)
- 為何要使用此工具?
- 它能幫我們解決什麼問題?
- 📓 什麼(What)
- 基本概念理解
- 常見術語解釋
- 🔧 如何做(How)
- 要怎麼開始使用,快速入門
- 一些實用提示(Tips)
- 📖 其他資源
- 推薦閱讀的文章列表(與中文摘要、翻譯)
- 相關技術連結
為了避免過於每個主題的 README 過於冗長,
一部份的內容(主要是「為什麼」的部分)會透過部落格文章說明並提供永久連結。
對某主題有興趣但不熟悉的讀者:
- 搜尋對應的資料夾,翻閱內容以快速掌握重要概念
- 跟隨「快速上手」章節,建置自己的新專案
經驗豐富的資料科學家:
- 將此 repo 當作快速的參考資料、小抄
- 貢獻你的知識 👊
現今學習資料科學的人們常會遇到的 3 個問題:
- 中文資料科學資源短缺 😢
- 儘管網路已經有很多英文文章,但是英文能力不足
- 資訊爆炸的時代看什麼 💥
- 就算英文夠好,相關的英文文章過多不知道該從何看起
- 學的跟業界期待的不同 😥
此 repo 希望能透過以下方式,來(一部份地)解決這些問題:
- 全中文內容並搭配英文術語
- 讓讀者在最短時間內掌握核心概念的同時,記住英文專業術語以與非中文母語的人合作
- 提供相關英文文章的中文重點摘要
- 以讓讀者快速掌握文章內容以及資料科學的趨勢
- 業界資料科學家的實際工作經驗分享
雖然目前此 repo 的所有內容都是從自己在工作以及個人專案裡頭整理出來的東西,歡迎各種 PR 👏
你可以針對不同主題:
- 提供可輕易再現(reproducible)的程式碼或者範例
- 提供優質的中/英文相關文章、網站
- 提供優質英文文章的重點摘要、翻譯
- 提供回饋,告訴我哪裡需要修正
或者建議新的主題 💡