728x90
๋ฐ์ํ
๐ก
EDA(Exploratory Data Analysis) : ๋ฐ์ดํฐ์์ ๋ถ์์ ํ์ํ ์ฌ๋ฌ๊ฐ์ง ํต๊ณ๋์ ๊ณ์ฐํ๊ณ , ์๊ฐํ๋ฅผ ํตํด์ ํ์ธํ๋ ์์
.

- ํ์์ ๋ฐ์ดํฐ ๋ถ์ (Exploratory Data Analysis, EDA)์ ๋ฐ์ดํฐ์ ์นํด์ง๋ ๊ณผ์ ์ ๋๋ค.
- ๋ถ์์ ํ๋ฉด์ ๋ฐ์ดํฐ์์ ํ์ธํ๊ณ ์ถ์ ์ ๋ณด๋ค์ ํ์ธํ๋ ๊ณผ์ ์ ๋๋ค.
- ์ ๋ต์ฒ๋ผ ๊ท์น์ฒ๋ผ ์ ํด์ง ํ๋ก์ธ์ค๊ฐ ๋ฐ๋ก ์๊ณ , ๋ถ์๊ฐ๋ค๋ง๋ค ๋ฐฉ๋ฒ๋ก ์ด ์กฐ๊ธ์ฉ ๋ค๋ฆ ๋๋ค.
- ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ด ์กด์ฌํฉ๋๋ค.
- ๋ฐ์ดํฐ์ ๋ํด์ ๋ง์ด ์ ์๋ก EDA๋ ์ํ ์ ์์ต๋๋ค. (Domain Knowledge)
- ๋๋ง์ EDA process๋ฅผ ๋ง๋ค ์๋ก, Data Scientist๋ก์ ์ญ๋์ด ๊ฐ์ถ์ด ์ง๋ค๊ณ ํ ์ ์๋ค.
์ค๋ช ์ ํธ์๋ฅผ ์ํด์ Iris dataset์ด ๋ชจ๋2๊น์ง ๊ฑฐ์ณ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋์๋ค๊ณ ๊ฐ์ ํด๋ด ๋๋ค.

๋ฐ์ดํฐ ํฌ๊ธฐ ํ์ธ
- ์ฃผ์ด์ง Iris dataset์ ํฌ๊ธฐ๋ 150 rows, 6 columns ์ ๋๋ค. (150 x 6)
- pandas๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋๋ต 7.2KB ์ ๋๋ค.
๋ฐ์ดํฐ ๋ถํฌ ํ์ธ
- target distribution

- Petal Length VS Petal Width

- Feature Histogram

๋ฐ์ดํฐ ์๊ฐํ
- Pairplot

- Boxplot

ํต๊ณ๋ ๋ถ์
- Correlation Matrix

Reference
Hands-on
- Data Source :
Iris Species
Classify iris plants into three species in this classic dataset

- Excel์ ์ด์ฉํด์ ๊ฐ column๋ณ ํ๊ท , ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํด๋ณด์ธ์.
- Excel์ ์ด์ฉํด์ target distribution์ ๋ง๋๊ทธ๋ํ๋ก ๊ทธ๋ ค๋ณด์ธ์.
728x90
๋ฐ์ํ
'AI Study > DeepLearning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| Chapter.03 Machine Learning Workflow-05. ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ๋ง (0) | 2023.04.07 |
|---|---|
| Chapter.03 Machine Learning Workflow-04. ํผ์ฒ ์์ง๋์ด๋ง (0) | 2023.04.07 |
| Chapter.03 Machine Learning Workflow-02. ๋ฐ์ดํฐ ์์ง (0) | 2023.04.06 |
| Chapter.03 Machine Learning Workflow-01. ๋ถ์ ๋ฌธ์ ์ ์ (0) | 2023.04.05 |
| Chapter.03 Machine Learning Workflow-00. Machine Learning Workflow (0) | 2023.04.05 |