數據集
外表
(由Dataset跳轉過嚟)

dataframe數據集(參見英文:dataset,粵拼:粵化口語音:dei1 taa1 set1)係一拃數據,由於某啲原因而俾研究者擺埋一齊睇,當中常見嘅原因可能係因為佢哋嚟自同一場實驗,或者嚟自同一份問卷調查。喺表格形式嘅數據集之中,
譬如依家想收集數據,睇吓全香港中學生嘅健康概況,量度咗樣本中每個學生嘅身高、體重、心率... 等多個變數,是但搵一個個案嚟睇,佢都喺每個變數上有個值。整合數據集嗰陣,做統計用嘅軟件通常會畫一幅表格,每行橫行對應其中一個個案,每行打戙行(欄)謂之一個變數[1][2]。
例子
[編輯]睇埋:數據
神經心理學嘅數據集例子,假想依家要研究記憶力同其他認知方面嘅能力:
個案 年齡 認知分數 記憶分數 反應時間 (ms) 阿明 25 88 76 350 阿偉 40 92 81 420 阿珍 55 79 68 510 阿苹 65 79 95 600 阿強 75 65 48 720
宏觀經濟學嘅數據集例子,假想而家想研究經濟增長會受咩因素影響:
城市 年份 GDP (以十億美元計) 通脹率 (%) 失業率 (%) 光周 2010 1500 2.1 5.0 鄉講 2015 2100 1.8 4.3 奧滿 2010 800 3.5 7.2 桔龍波 2020 500 4.0 10.5 衫煩市 2015 1200 2.9 6.1
地點 經度 緯度 平均年降雨量 (mm) 平均氣溫 (°C) 埞方 A 114.15 22.28 2200 23.5 埞方 B 121.47 31.23 1100 17.2 埞方 C 139.69 35.69 1500 15.6 埞方 D 103.85 1.29 2400 27.0 埞方 E 151.21 -33.87 1200 18.0
描述
[編輯]内文:描述統計學
統計或者數據科學等領域處理 dataset 嗰時,通常會首先計一啲描述統計指標出嚟。呢啲指標會話俾分析者知,個 dataset 嘅特徵為何,而且研究者決定要用咩分析方法之前,往往都要
常用嘅描述指標有:
當中峰度同偏度話到俾研究者知,數據中嘅變數係咪跟從常態分佈,而若果一啲變數唔跟常態分佈,某啲假設咗常態分佈嘅分析方法就唔用得。
睇埋
[編輯]引述
[編輯]- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. 原著喺2019-11-23歸檔. 喺2017-02-10搵到.
- ↑ "UCI Machine Learning Repository: Iris Data Set". 原先內容歸檔喺2023-04-26. 喺2023-05-02搵到.
- ↑ Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. Springer. ISBN 978-3-540-66490-1.