728x90
๋ฐ˜์‘ํ˜•
๐Ÿ’ก
๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ : ์ •์˜ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ๋กœ ๊ฐ€์ ธ์™€์„œ Data Mart๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ์ž‘์—….
  • ๋ถ„์„ ๋ฐ์ดํ„ฐ ์ •์˜์— ๋งž๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. (์ˆ˜์ง‘) โ†’ ์ง์ ‘ ์ˆ˜์ง‘์„ ํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ๋ผ๋ฉด, Web Crawling์„ ์‚ฌ์šฉ!
  • ๋ฐ์ดํ„ฐ๊ฐ€ Data Warehouse์— ์—†๋Š” ๊ฒฝ์šฐ๋ผ๋ฉด, Data Engineer์—๊ฒŒ ์š”์ฒญํ•ฉ๋‹ˆ๋‹ค.
  • ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ค๋А๋ƒ์— ๋”ฐ๋ผ ๋ถ„์„ ๊ฒฐ๊ณผ ํ’ˆ์งˆ์ด ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค. โ†’ Data Quality
  • ์ •์˜ํ•œ ๋ฐ์ดํ„ฐ๋Š” ์‹ค์ œ ์ €์ •๋˜์–ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์™€ 1:1 ๋งค์นญ์ด ๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. โ†’ ๋ฐ์ดํ„ฐ ์ •ํ•ฉ์„ฑ ํ‰๊ฐ€
  • ๋‹ค์–‘ํ•œ source์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์™€์„œ ํ•ฉ์ณ์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ์ž‘์—…์ด ๋๋‚˜๋ฉด ์ •์˜ํ•œ ๋ถ„์„ ๋„๊ตฌ์— ๋งž๊ฒŒ ํฌ๋งท์„ ๋ณ€๊ฒฝํ•ด์ค๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋งˆํŠธ ์ƒ์„ฑ

  • ์ด๋ฏธ Data Warehouse์— ์ •์˜๊ฐ€ ๋˜์–ด์žˆ๋‹ค๋ฉด, SQL(์ด๋‚˜ ๋‹ค๋ฅธ BI-business intelligence ์†”๋ฃจ์…˜)์„ ์‚ฌ์šฉํ•ด์„œ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.
  • ์—ฌ๋Ÿฌ source๋“ค์— ์žˆ๋‹ค๊ณ  ํ•˜๋ฉด, ํ•„์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐ๋˜๋Š” ๋ฐ์ดํ„ฐ๋“ค์„ ์ผ๋‹จ ๋ชจ๋‘ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.
  • ์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์›ํ•˜๋Š” ํ˜•ํƒœ๋กœ ํ•ฉ์ณ์ง€๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์„ โ€œ๋ฐ์ดํ„ฐ ์ •ํ•ฉ์„ฑ ํ‰๊ฐ€โ€ ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ถ„์„์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋А ๊ธฐ๊ฐ„์— ์ˆ˜์ง‘๋œ๊ฑด
  • Iris dataset์œผ๋กœ Data Mart๋ฅผ ๋งŒ๋“œ๋ ค๋ฉด?
    • ๋งŒ์•ฝ์— DB์— ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋‹ค๋ฉด โ†’ ์ง์ ‘ ์ˆ˜์ง‘ (๋‚˜๊ฐ€์„œ ์ฑ„์ง‘, ์›น์—์žˆ๋‹ค๋ฉด ํฌ๋กค๋ง, โ€ฆ)
    • ๋งŒ์•ฝ์— DB์— ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๋ฉด โ†’ ์•ž์—์„œ ์ •์˜ํ•œ ํŠน์ง•๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ณ , ํ•ด๋‹น ๋ฐ์ดํ„ฐ ์…‹์„ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. (ex. ์„œ์‹์ง€, ์ค„๊ธฐ, ์žŽ ํฌ๊ธฐ, โ€ฆ)

๋ฐ์ดํ„ฐ ์ •ํ•ฉ์„ฑ ํ‰๊ฐ€

  • ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์น  ๋•Œ ์ƒ๊ธฐ๋Š” ์ด์Šˆ๋“ค์„ ์ฒดํฌํ•˜๋Š” ๊ณผ์ •.
  • ์•„๋ž˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๊ณ , ์ด ๋‘ ๊ฐœ์˜ ํ…Œ์ด๋ธ”์„ ํ•ฉ์นœ๋‹ค๋ฉด(JOIN operation) ์–ด๋–ค ๊ฒƒ๋“ค์„ ์ฒดํฌํ•ด์•ผํ• ๊นŒ์š”?
    • user_id, time column์ด ์กด์žฌํ•˜๋Š”๊ฐ€ โ†’ O
    • row๊ฐ€ ์ •์˜๋œ ๋‹จ์œ„(unit)์ด ์ผ์น˜ํ•˜๋Š”๊ฐ€ โ†’ X :time unit์ด ๋‹ค๋ฅด๋‹ค (yymmddhhmmss VS yymmddhh0000) โ†’ ์ดˆ ๋‹จ์œ„๋ฅผ ์‹œ๊ฐ„(hour) ๋‹จ์œ„๋กœ ํ•ฉ์ณ์ค€๋‹ค.

๋ฐ์ดํ„ฐ ์ทจํ•ฉ

  • ์ •ํ•ฉ์„ฑ ํ‰๊ฐ€๋ฅผ ํ†ต๊ณผํ–ˆ๋‹ค๋ฉด, ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์นฉ๋‹ˆ๋‹ค.
  • JOIN ์—ฐ์‚ฐ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์ฒ˜์Œ ์ƒ๊ฐํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋งž๋Š”์ง€ ์ฒดํฌํ•ฉ๋‹ˆ๋‹ค. (sainty check)

๋ฐ์ดํ„ฐ ํฌ๋งท ํ†ต์ผ

  • ์ทจํ•ฉํ•œ ๊ฒฐ๊ณผ๊ฐ€ table(in DBMS)์ธ๋ฐ, ๋ถ„์„ํ•  ๋•Œ๋Š” csv file์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋Š” ๋ณ€๊ฒฝํ•ด์ค๋‹ˆ๋‹ค.
  • ๋ถ„์„ ๋„๊ตฌ์˜ input type์„ ๋ณด๊ณ  ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.


(Optional, Advanced) Hands-on

  1. ์ด๋ฏธ ์กด์žฌํ•˜๋Š” Iris dataset์„ ์ข… ๋ณ„๋กœ ๋‚˜๋ˆ ์„œ table๋กœ ๋งŒ๋“ค์–ด๋ณด์„ธ์š”. ์›๋ž˜ ์–ด๋–ค ํ˜•ํƒœ์˜€์„์ง€ ๊ณ ๋ฏผํ•ด๋ณด์„ธ์š”. (pandas, SQL ๋ฌด์—‡์„ ์“ฐ์…”๋„ ์ƒ๊ด€์—†์ง€๋งŒ, Excel์„ ์ถ”์ฒœํ•ฉ๋‹ˆ๋‹ค!)
  1. ๋‚˜๋ˆˆ table์— ์ž„์˜๋Œ€๋กœ ์ƒˆ๋กœ์šด column 2๊ฐœ(์ˆ˜์ง‘์‹œ๊ฐ„, ์ˆ˜๋ช…)๋ฅผ ์ถ”๊ฐ€ํ•ด๋ณด์„ธ์š”. setosa๋Š” ์ˆ˜๋ช…์€ Normal(10, 3)์˜ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ๊ฐ’์œผ๋กœ, versicolor๋Š” Normal(10, 1)์„ ๋”ฐ๋ฅด๋Š” ๊ฐ’์œผ๋กœ, virginica๋Š” Normal(1, 0.3)์„ ๋”ฐ๋ฅด๋Š” ๊ฐ’์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ ๋ณด์„ธ์š”. (๋‹จ, ์ˆ˜์ง‘์‹œ๊ฐ„์— ๋Œ€ํ•ด์„œ๋Š” ์ž์œ ๋กญ๊ฒŒ ์•„๋ฌด ๊ฐ’์ด๋‚˜ ๋„ฃ์œผ์…”๋„ ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ์‹œ์ผ ๋ฟ์ž…๋‹ˆ๋‹ค)
  1. ๋งŒ๋“ค์–ด์ง„ ๋ฐ์ดํ„ฐ๋“ค์„ ๋‹ค์‹œ ํ•ฉ์นœ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ, ์ˆ˜๋ช… ์ •๋ณด๊ฐ€ ์œ ์˜๋ฏธํ•œ์ง€ ๊ณ ๋ฏผํ•ด๋ณด๊ณ  ์œ ์˜๋ฏธํ•˜๋‹ค๊ณ  ํŒ๋‹จ๋˜๋ฉด ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋„ ํ•ฉ์ณ์งˆ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด๋ณด์„ธ์š”.
728x90
๋ฐ˜์‘ํ˜•

+ Recent posts