原始數據
外表
原始數據(參見英文:raw data)係指啲數據最未經處理嘅樣:數據啱啱收集返嚟,未經過整理、清洗或者轉換,就謂之原始數據;呢啲數據可以係嚟自觀察、實驗、量度或者問卷等來源嘅直接輸出,而對呢啲數據嘅處理,係所有統計分析同數據科學工作嘅基礎。[1][2]
特點
[編輯]原始數據通常有以下呢啲特點:
- 仍然包含錯誤、遺漏或者格式唔統一嘅紀錄。
- 未經分類或者轉換成適合分析嘅結構。
- 可能會包含敏感或冗餘嘅資訊,需要喺分析前清理,譬如問卷調查噉,可能會紀錄咗受訪者嘅電郵地址,而由於私隱方面嘅問題,呢啲數據可能要拎走,先至做進一步嘅分析。
例子
[編輯]例如依家做社會科學研究,啱啱做咗問卷調查,研究團隊收集咗一份份包含咗受訪者嘅答案嘅問卷。啲問卷上便會有:
- 受訪者打錯字,或者有啲題目冇答;
- 有人寫 N/A 或者畫咗個箭嘴;
- 受訪者寫低時間記錄,上晝九點同 09:00 am 等嘅唔同寫法。
呢啲問卷上嘅數據,就謂之原始數據。
研究者將數據入落電腦,跟住就要刪走重複嘅答案、統一啲格式、剷走明顯係錯誤嘅紀錄... 等等,做晒咁多處理得出嚟嘅數據,就成為經過咗清理嘅數據,可以攞去做分析之用[3]。