# 事前數據處理

## 作業

• 清走啲好明顯係出咗錯嘅數據（例：負數嘅年齡）；
• 睇吓個數據庫，諗吓使唔使做一啲整體性嘅編輯（例：將所有數據按比例縮放成 0 至 1 之間嘅數值）；
• 將啲數據簡化（睇埋降維）；
• 諗吓好唔好將啲數據嘅格式改變，等柞數據易睇啲。

... 等等。

## 例子碼

```# Python code to Rescale data (between 0 and 1)
import pandas
import scipy
import numpy
from sklearn.preprocessing import MinMaxScaler
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data" # 指定一個網址
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] # 指定每個變數嘅名
dataframe = pandas.read_csv(url, names=names) # 由網址嗰度攞數據
array = dataframe.values # 將數據擺入去屬於個程式一個 array 嗰度

X = array[:,0:8] # X 呢個 array 包含咗用嚟做預測嘅變數
Y = array[:,8] # Y 呢個 array 包含咗要預測嘅變數

# 將 X 入面嘅數字重新縮放
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)

# 將做完縮放嘅嗰柞數據 show 出嚟睇
numpy.set_printoptions(precision=3)
print(rescaledX[0:5,:])
```

## 攷

1. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
2. Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 1–17.
3. Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "The impact of signal pre-processing on the final interpretation of analytical outcomes – A tutorial". Analytica Chimica Acta. 1058: 9–17.
4. Data Preprocessing for Machine learning in Python 互聯網檔案館歸檔，歸檔日期2019年7月6號，..