跳去內容

數據集

出自維基百科,自由嘅百科全書
(由Dataset跳轉過嚟)
  提示:呢篇文講嘅唔係數據庫
(英文)pandasdataframe

數據集(參見英文dataset粵拼粵化口語音dei1 taa1 set1)係一拃數據,由於某啲原因而俾研究者擺埋一齊睇,當中常見嘅原因可能係因為佢哋嚟自同一場實驗,或者嚟自同一份問卷調查。喺表格形式嘅數據集之中,

  • 表格入便每一個column粵拼ko1 lam4)代表某個特定嘅變數
  • 而表格嘅每一row)就對應住數據中嘅一條紀錄或者一個個案。

譬如依家想收集數據,睇吓全香港中學生嘅健康概況,量度樣本中每個學生嘅身高體重心率... 等多個變數,是但搵一個個案嚟睇,佢都喺每個變數上有個值。整合數據集嗰陣,做統計用嘅軟件通常會畫一幅表格,每行橫行對應其中一個個案,每行打戙行(欄)謂之一個變數[1][2]

例子

[編輯]
睇埋:數據

神經心理學嘅數據集例子,假想依家要研究記憶力同其他認知方面嘅能力:

個案 年齡 認知分數 記憶分數 反應時間 (ms)
阿明 25 88 76 350
阿偉 40 92 81 420
阿珍 55 79 68 510
阿苹 65 79 95 600
阿強 75 65 48 720

宏觀經濟學嘅數據集例子,假想而家想研究經濟增長會受咩因素影響:

城市 年份 GDP (以十億美元計) 通脹率 (%) 失業率 (%)
光周 2010 1500 2.1 5.0
鄉講 2015 2100 1.8 4.3
奧滿 2010 800 3.5 7.2
桔龍波 2020 500 4.0 10.5
衫煩市 2015 1200 2.9 6.1

地理學嘅數據集例子,想像要研究嘅係地理位置會點樣影響氣候

地點 經度 緯度 平均年降雨量 (mm) 平均氣溫 (°C)
埞方 A 114.15 22.28 2200 23.5
埞方 B 121.47 31.23 1100 17.2
埞方 C 139.69 35.69 1500 15.6
埞方 D 103.85 1.29 2400 27.0
埞方 E 151.21 -33.87 1200 18.0

描述

[編輯]

統計或者數據科學等領域處理 dataset 嗰時,通常會首先計一啲描述統計指標出嚟。呢啲指標會話俾分析者知,個 dataset 嘅特徵為何,而且研究者決定要用咩分析方法之前,往往都要 checkcek1 吓呢啲指標先。[3]

常用嘅描述指標有:

當中峰度偏度話到俾研究者知,數據中嘅變數係咪跟從常態分佈,而若果一啲變數唔跟常態分佈,某啲假設咗常態分佈嘅分析方法就唔用得。

睇埋

[編輯]

引述

[編輯]
  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. 原著喺2019-11-23歸檔. 喺2017-02-10搵到.
  2. "UCI Machine Learning Repository: Iris Data Set". 原先內容歸檔喺2023-04-26. 喺2023-05-02搵到.
  3. Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. Springer. ISBN 978-3-540-66490-1.