數據科學

出自維基百科,自由嘅百科全書
Jump to navigation Jump to search
2018 年其中一個禮拜英文維基百科最多人睇嗰 25 篇文嘅名同瀏覽數;要點樣利用呢啲數據達到目的呢?

數據科學粵拼sou3 geoi3 fo1 hok6英文data science)係一個跨學科科學領域,重點研究運用科學方法同各種演算法,由有結構或者冇結構嘅數據嗰度搵出有用知識[1][2]。有數據科學家指,數據科學可以用以下一句嘢概括:「用最勁嘅硬件、最勁嘅編程系統、同用最有效嘅演算法嚟解決問題[3]。」

有人指,數據科學係科學嘅「第四範式」(fourth paradigm):本嚟科學係以實證理論、同計算為重嘅,廿一世紀初就喺呢三樣之上加多個「數據」[4];數據科學會運用數學統計學機械學習、以及訊息科學等領域嘅技術,由手上嘅數據當中抽取有用嘅知識,並且攞嚟喺有經濟價值嘅地方嗰度使用(例:根據手上數據,呢柞變數之間成噉嘅關係,呢個預測現象嘅能力可以作乜商業用途?)[5]。數據科學係伴隨廿一世紀資訊科技而嚟嘅-隨住互聯網發達,有大量數據喺網上流動(睇埋大數據),於是有唔少人開始想利用呢啲數據做有用嘅嘢,數據科學就隨住呢股趨勢而興起[6][7]

做數據科學嘅工序如下[8]

  1. 諗清楚要解決嘅問題係乜。例:家陣有個數據科學家,俾人請佢幫手做市場研究,佢首先要搞清楚份研究想達到乜目的(搞清楚消費者鍾意同唔鍾意件產品啲乜,再按呢個資訊改良件產品)。
  2. 做一啲探索性(exploratory)嘅分析,諗吓手上嘅數據解答到乜嘢同目的相關嘅問題。例:手上個數據庫有一大柞消費者嘅數據,知道每個消費者對件產品喺各方面嘅評價,計劃可以試吓做聚類分析(cluster analysis)將消費者分做若干類。
  3. 建立一啲數學模型,描述柞數據入面有啲乜嘢規律喺當中。例:用機械學習演算法做返咗個聚類分析,結果係消費者可以按照佢哋對件產品各方面嘅評價分做三大類。
  4. 匯報個結果(尤其係步驟 3 嘅結果)俾相關人員聽,將數據視覺化,等啲數據易睇。
  5. 講吓個結果有乜嘢影響-即係知道咗呢個結果,目前嘅做嘢方法要有乜嘢改變先可以更有效噉達到目的。例:知道咗消費者可以分做三類,產品設計要點改變先可以令消費者更加滿意?

睇埋[編輯]

參考書[編輯]

  • Cielen, D., Meysman, A., & Ali, M. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co.
  • Grus, J. (2019). Data science from scratch: first principles with python. O'Reilly Media.

[編輯]

  1. Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73.
  2. Jeff Leek (12 December 2013). "The key word in "Data Science" is not Data, it is Science 互聯網檔案館歸檔,歸檔日期2018年8月21號,.". Simply Statistics.
  3. Leskovec, Jure; Rajaraman, Anand; Ullman, Jeffrey David. Mining of Massive Datasets[失咗效嘅鏈] (PDF) (Preprint of 3rd ed.). Cambridge University Press. p. 1.
  4. Tansley, S., & Tolle, K. M. (2009). The fourth paradigm: data-intensive scientific discovery (Vol. 1). A. J. Hey (Ed.). Redmond, WA: Microsoft research.
  5. Hayashi, Chikio (1 January 1998). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51.
  6. Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298.
  7. "ASA Statement on the Role of Statistics in Data Science". AMSTATNEWS. American Statistical Association.
  8. A Design Thinking Mindset for Data Science[失咗效嘅鏈]. Towards Data Science

[編輯]