728x90
๋ฐ์ํ
๐ก
๋ฐ์ดํฐ ์์ง : ์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ก ๊ฐ์ ธ์์ Data Mart๋ฅผ ๊ตฌ์ถํ๋ ์์
.

- ๋ถ์ ๋ฐ์ดํฐ ์ ์์ ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ๊ฐ์ ธ์ต๋๋ค. (์์ง) โ ์ง์ ์์ง์ ํด์ผํ๋ ๊ฒฝ์ฐ๋ผ๋ฉด, Web Crawling์ ์ฌ์ฉ!
- ๋ฐ์ดํฐ๊ฐ Data Warehouse์ ์๋ ๊ฒฝ์ฐ๋ผ๋ฉด, Data Engineer์๊ฒ ์์ฒญํฉ๋๋ค.
- ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋๋์ ๋ฐ๋ผ ๋ถ์ ๊ฒฐ๊ณผ ํ์ง์ด ๊ฒฐ์ ๋ฉ๋๋ค. โ Data Quality
- ์ ์ํ ๋ฐ์ดํฐ๋ ์ค์ ์ ์ ๋์ด ์๋ ๋ฐ์ดํฐ์ 1:1 ๋งค์นญ์ด ๋์ง ์์ ์ ์์ต๋๋ค. โ ๋ฐ์ดํฐ ์ ํฉ์ฑ ํ๊ฐ
- ๋ค์ํ source์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์์ ํฉ์ณ์ผ ํ ์๋ ์์ต๋๋ค.
- ๋ชจ๋ ์์ ์ด ๋๋๋ฉด ์ ์ํ ๋ถ์ ๋๊ตฌ์ ๋ง๊ฒ ํฌ๋งท์ ๋ณ๊ฒฝํด์ค๋๋ค.
๋ฐ์ดํฐ ๋งํธ ์์ฑ
- ์ด๋ฏธ Data Warehouse์ ์ ์๊ฐ ๋์ด์๋ค๋ฉด, SQL(์ด๋ ๋ค๋ฅธ BI-business intelligence ์๋ฃจ์ )์ ์ฌ์ฉํด์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ต๋๋ค.
- ์ฌ๋ฌ source๋ค์ ์๋ค๊ณ ํ๋ฉด, ํ์ํ๋ค๊ณ ์๊ฐ๋๋ ๋ฐ์ดํฐ๋ค์ ์ผ๋จ ๋ชจ๋ ๊ฐ์ ธ์ต๋๋ค.
- ์ด ๋ฐ์ดํฐ๊ฐ ์ํ๋ ํํ๋ก ํฉ์ณ์ง๋์ง ํ ์คํธํ๋ ๊ฒ์ โ๋ฐ์ดํฐ ์ ํฉ์ฑ ํ๊ฐโ ๋ผ๊ณ ํฉ๋๋ค.
- ๋ถ์์ ํ์ํ ๋ฐ์ดํฐ๊ฐ ์ด๋ ๊ธฐ๊ฐ์ ์์ง๋๊ฑด
- Iris dataset์ผ๋ก Data Mart๋ฅผ ๋ง๋๋ ค๋ฉด?
- ๋ง์ฝ์ DB์ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด โ ์ง์ ์์ง (๋๊ฐ์ ์ฑ์ง, ์น์์๋ค๋ฉด ํฌ๋กค๋ง, โฆ)
- ๋ง์ฝ์ DB์ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด โ ์์์ ์ ์ํ ํน์ง๋ค์ด ํฌํจ๋์ด ์๋์ง ํ์ธํ๊ณ , ํด๋น ๋ฐ์ดํฐ ์ ์ ๊ฐ์ ธ์ต๋๋ค. (ex. ์์์ง, ์ค๊ธฐ, ์ ํฌ๊ธฐ, โฆ)
๋ฐ์ดํฐ ์ ํฉ์ฑ ํ๊ฐ
- ๋ฐ์ดํฐ๋ฅผ ํฉ์น ๋ ์๊ธฐ๋ ์ด์๋ค์ ์ฒดํฌํ๋ ๊ณผ์ .
- ์๋ ์์๋ฅผ ๋ณด๊ณ , ์ด ๋ ๊ฐ์ ํ
์ด๋ธ์ ํฉ์น๋ค๋ฉด(JOIN operation) ์ด๋ค ๊ฒ๋ค์ ์ฒดํฌํด์ผํ ๊น์?
- user_id, time column์ด ์กด์ฌํ๋๊ฐ โ O
- row๊ฐ ์ ์๋ ๋จ์(unit)์ด ์ผ์นํ๋๊ฐ โ X :time unit์ด ๋ค๋ฅด๋ค (yymmddhhmmss VS yymmddhh0000) โ ์ด ๋จ์๋ฅผ ์๊ฐ(hour) ๋จ์๋ก ํฉ์ณ์ค๋ค.


๋ฐ์ดํฐ ์ทจํฉ
- ์ ํฉ์ฑ ํ๊ฐ๋ฅผ ํต๊ณผํ๋ค๋ฉด, ์ํ๋ ๋ฐ์ดํฐ๋ฅผ ํฉ์นฉ๋๋ค.
- JOIN ์ฐ์ฐ์ ๊ฒฐ๊ณผ๊ฐ ์ฒ์ ์๊ฐํ๋ ๊ฒ๊ณผ ๋ง๋์ง ์ฒดํฌํฉ๋๋ค. (
sainty check)
๋ฐ์ดํฐ ํฌ๋งท ํต์ผ
- ์ทจํฉํ ๊ฒฐ๊ณผ๊ฐ table(in DBMS)์ธ๋ฐ, ๋ถ์ํ ๋๋ csv file์ด ํ์ํ ๊ฒฝ์ฐ์๋ ๋ณ๊ฒฝํด์ค๋๋ค.
- ๋ถ์ ๋๊ตฌ์ input type์ ๋ณด๊ณ ๊ฒฐ์ ํฉ๋๋ค.
(Optional, Advanced) Hands-on
- ์ด๋ฏธ ์กด์ฌํ๋ Iris dataset์ ์ข ๋ณ๋ก ๋๋ ์ table๋ก ๋ง๋ค์ด๋ณด์ธ์. ์๋ ์ด๋ค ํํ์์์ง ๊ณ ๋ฏผํด๋ณด์ธ์. (pandas, SQL ๋ฌด์์ ์ฐ์ ๋ ์๊ด์์ง๋ง, Excel์ ์ถ์ฒํฉ๋๋ค!)
- ๋๋ table์ ์์๋๋ก ์๋ก์ด column 2๊ฐ(์์ง์๊ฐ, ์๋ช )๋ฅผ ์ถ๊ฐํด๋ณด์ธ์. setosa๋ ์๋ช ์ Normal(10, 3)์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๊ฐ์ผ๋ก, versicolor๋ Normal(10, 1)์ ๋ฐ๋ฅด๋ ๊ฐ์ผ๋ก, virginica๋ Normal(1, 0.3)์ ๋ฐ๋ฅด๋ ๊ฐ์ผ๋ก ์์ฑํ์ฌ ๋ณด์ธ์. (๋จ, ์์ง์๊ฐ์ ๋ํด์๋ ์์ ๋กญ๊ฒ ์๋ฌด ๊ฐ์ด๋ ๋ฃ์ผ์ ๋ ๋ฉ๋๋ค. ์์์ผ ๋ฟ์ ๋๋ค)
- ๋ง๋ค์ด์ง ๋ฐ์ดํฐ๋ค์ ๋ค์ ํฉ์น๋ค๊ณ ํ์ ๋, ์๋ช ์ ๋ณด๊ฐ ์ ์๋ฏธํ์ง ๊ณ ๋ฏผํด๋ณด๊ณ ์ ์๋ฏธํ๋ค๊ณ ํ๋จ๋๋ฉด ํด๋น ๋ฐ์ดํฐ๋ ํฉ์ณ์ง ์ ์๊ฒ ํด๋ณด์ธ์.
728x90
๋ฐ์ํ
'AI Study > DeepLearning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| Chapter.03 Machine Learning Workflow-04. ํผ์ฒ ์์ง๋์ด๋ง (0) | 2023.04.07 |
|---|---|
| Chapter.03 Machine Learning Workflow-03. EDA (0) | 2023.04.06 |
| Chapter.03 Machine Learning Workflow-01. ๋ถ์ ๋ฌธ์ ์ ์ (0) | 2023.04.05 |
| Chapter.03 Machine Learning Workflow-00. Machine Learning Workflow (0) | 2023.04.05 |
| Chapter.02 ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ด๋?-05. Cloud Computing (0) | 2023.04.05 |