跳去內容

原始數據

出自維基百科,自由嘅百科全書

原始數據(參見英文raw data)係指啲數據最未經處理嘅樣:數據啱啱收集返嚟,未經過整理、清洗或者轉換,就謂之原始數據;呢啲數據可以係嚟自觀察實驗量度或者問卷等來源嘅直接輸出,而對呢啲數據嘅處理,係所有統計分析數據科學工作嘅基礎。[1][2]

特點

[編輯]

原始數據通常有以下呢啲特點:

  • 仍然包含錯誤、遺漏或者格式唔統一嘅紀錄。
  • 未經分類或者轉換成適合分析嘅結構。
  • 可能會包含敏感或冗餘嘅資訊,需要喺分析前清理,譬如問卷調查噉,可能會紀錄咗受訪者嘅電郵地址,而由於私隱方面嘅問題,呢啲數據可能要拎走,先至做進一步嘅分析。

例子

[編輯]

例如依家做社會科學研究,啱啱做咗問卷調查,研究團隊收集咗一份份包含咗受訪者嘅答案嘅問卷。啲問卷上便會有:

  • 受訪者打錯字,或者有啲題目冇答;
  • 有人寫 N/A 或者畫咗個箭嘴;
  • 受訪者寫低時間記錄,上晝九點09:00 am 等嘅唔同寫法。

呢啲問卷上嘅數據,就謂之原始數據。

研究者將數據入落電腦,跟住就要刪走重複嘅答案、統一啲格式、剷走明顯係錯誤嘅紀錄... 等等,做晒咁多處理得出嚟嘅數據,就成為經過咗清理嘅數據,可以攞去做分析之用[3]

睇埋

[編輯]

引述

[編輯]
  1. Gitelman, Lisa (2013). Raw data is an oxymoron. MIT press.
  2. Loukissas, Yanni Alexander (2019). All data are local: Thinking critically in a data-driven society. MIT press.
  3. Kitchin, Rob (2014). The Data Revolution. United States: Sage. p. 6.