跳去內容

數據集

出自維基百科,自由嘅百科全書
  提示:呢篇文講嘅唔係數據庫
(英文)pandasdataframe

數據集(參見英文dataset粵拼粵化口語音dei1 taa1 set1 )係一拃數據,由於某啲原因而俾研究者擺埋一齊睇,當中常見嘅原因可能係因為佢哋嚟自同一場實驗,或者嚟自同一份問卷調查。喺表格形式嘅數據集之中,

  • 表格入便每一個column粵拼ko1 lam4)代表某個特定嘅變數
  • 而表格嘅每一row)就對應住數據中嘅一條紀錄或者一個個案。

譬如依家想收集數據,睇吓全香港中學生嘅健康概況,量度樣本中每個學生嘅身高體重心率... 等多個變數,是但搵一個個案嚟睇,佢都喺每個變數上有個值。整合數據集嗰陣,做統計用嘅軟件通常會畫一幅表格,每行橫行對應其中一個個案,每行打戙行(欄)謂之一個變數[1][2]

例子

[編輯]
睇埋:數據

神經心理學嘅數據集例子,假想依家要研究記憶力同其他認知方面嘅能力:

個案年齡認知分數記憶分數反應時間 (ms)
阿明258876350
阿偉409281420
阿珍557968510
阿苹657995600
阿強756548720

宏觀經濟學嘅數據集例子,假想而家想研究經濟增長會受咩因素影響:

城市年份GDP (以十億美元計)通脹率 (%)失業率 (%)
光周201015002.15.0
鄉講201521001.84.3
奧滿20108003.57.2
桔龍波20205004.010.5
衫煩市201512002.96.1

地理學嘅數據集例子,想像要研究嘅係地理位置會點樣影響氣候

地點經度緯度平均年降雨量 (mm)平均氣溫 (°C)
埞方 A114.1522.28220023.5
埞方 B121.4731.23110017.2
埞方 C139.6935.69150015.6
埞方 D103.851.29240027.0
埞方 E151.21-33.87120018.0

描述

[編輯]

統計或者數據科學等領域處理 dataset 嗰時,通常會首先計一啲描述統計指標出嚟。呢啲指標會話俾分析者知,個 dataset 嘅特徵為何,而且研究者決定要用咩分析方法之前,往往都要 checkcek1 吓呢啲指標先。[3]

常用嘅描述指標有:

當中峰度偏度話到俾研究者知,數據中嘅變數係咪跟從常態分佈,而若果一啲變數唔跟常態分佈,某啲假設咗常態分佈嘅分析方法就唔用得。

睇埋

[編輯]

引述

[編輯]
  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. 原著喺2019-11-23歸檔. 喺2017-02-10搵到.
  2. "UCI Machine Learning Repository: Iris Data Set". 原先內容歸檔喺2023-04-26. 喺2023-05-02搵到.
  3. Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. Springer. ISBN 978-3-540-66490-1.