728x90
๋ฐ์ํ
๐ก
(Apache) Hadoop : High-Availability Distributed Object-Oriented Platform์ ์ฝ์๋ก ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ ์ ์๋ Java๊ธฐ๋ฐ ํ๋ ์์ํฌ

- Apache(์ํ์น) ์ฌ๋จ์์ ๊ด๋ฆฌํ๋ ํ๋ฆฌ์จ์ด์ธ Hadoop Project์์ ๋ง๋ค์ด์ง๋ ๋ชจ๋ ์ํํธ์จ์ด ์๋ฃจ์ ๋ค์ ์งํฉ์ ์๊ธฐํ๋ค.
- Hadoop์ HDFS๋ผ๋ ํ์ผ์ฒ๋ฆฌ ์์คํ ๊ณผ Yarn์ด๋ผ๋ ๋ฆฌ์์ค ๊ด๋ฆฌ ์์คํ , MapReduce๋ผ๋ ๋์ฉ๋ ์ฒ๋ฆฌ ์์คํ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ํ๋ ์์ํฌ์ด๋ค.
- ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ ๋ง์ ์ํํธ์จ์ด๋ค์ด ํจ๊ป ์๋ ํ๋ซํผ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
HDFS (Hadoop Distributed File System)

- Hadoop์์ ๊ด๋ฆฌํ๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅ/๊ด๋ฆฌํ๋ ์์คํ (์คํ ๋ฆฌ์ง ๊ด๋ฆฌ)
- Namenode, Datanode๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ๊ด๋ฆฌ ํ๋ค.
node: ์ปดํจํฐ ํ ๋rack: Node ์ฌ๋ฌ๋๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ฌถ์ด๋์ ๊ฒ, ๊ฐ์ ๋คํธ์ํฌ ์ค์์น๋ฅผ ๊ณต์ ํ๋ค.cluster: ์ฌ๋ฌ rack์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ฌถ์ ๊ฒ.
- Namenode๋ ์ค์ ๋ฐ์ดํฐ๊ฐ ์ด๋ค Datanode์ ์ ์ฅ๋์ด ์๋์ง๋ฅผ ๊ด๋ฆฌํ๋ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ๊ด๋ฆฌํ๋ ๋ ธ๋์ด๋ค.
- Datanode์ ์ค์ ๋ฐ์ดํฐ๊ฐ ๋ถ์ฐ ์ ์ฅ๋๋ค. (replica๋ค์ด ์กด์ฌํจ)
YARN (Yet Another Resource Negotiator)

- Hadoop์์ ์ฒ๋ฆฌ๋๋ ๋ชจ๋ ๋ฆฌ์์ค๋ฅผ ๊ด๋ฆฌํด์ฃผ๋ ์์คํ .
- ์ด๋ค ์์ฒญ์ด ์ด๋ค ํด๋ฌ์คํฐ์ ํ ๋น๋์ด์ผ ํ๋์ง ๊ด๋ฆฌํ๋ค.
Resource Manager์Node Manager๊ฐ ๋ฆฌ์์ค๋ฅผ ๊ด๋ฆฌํ๋ค.
- Resource Manager๋ ๊ฐ Node Manager๊ฐ ๊ฐ Node์ ๋ฆฌ์์ค๋ฅผ ์ผ๋ง๋ ์ฌ์ฉํ๋์ง๋ฅผ ๊ด๋ฆฌํ๋ค.
- Node Manager๋ ๊ฐ Node๋ฅผ ๊ด๋ฆฌํ๋ฉฐ, Node์ ๋ฆฌ์์ค๋ฅผ ๊ด๋ฆฌํ๋ค. Resource Manager์ ์์ฒญ์ ์ํํ๋ ์ญํ ์ด๋ค.
- Client๊ฐ ์์ ์ ์์ฒญํ๋ฉด Resource Manager๊ฐ Node Manager๋ค์ ๊ด๋ฆฌํ์ฌ ๋ฆฌ์์ค๋ฅผ ํ ๋นํ๊ณ , ์์ ์ ์ํํ๋ค.
MapReduce

- Hadoop์์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ ์ค์ ํ๋์ด๋ค. (๊ฐ์ฅ ๋ง์ด ์ฐ์)
Maptask์Reducetask๊ฐ ์๋ค.
- Map task๋ฅผ ์ํํ๋ ๋
ธ๋๋ฅผ
Mapper, Reduce task๋ฅผ ์ํํ๋ ๋ ธ๋๋ฅผReducer๋ผ๊ณ ํ๋ค.
Process
- ์ ์ฒ๋ฆฌ๊ธฐ๊ฐ Mapper๊ฐ ์ผ์ ํ ์ ์๋ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ํ์ฌ Mapper๋ค์๊ฒ ์ ๋ฌํ๋ค.
- Mapper๋ ์ฒ๋ฆฌํด์ผํ๋ ๋ฐ์ดํฐ๋ฅผ Reducer๊ฐ ์ฐ์ฐํ ์ ์๋ ํํ๋ก ๋ณํํ๋ค. (mapping)
- Reducer์๊ฒ ์ ๋ฌํ๊ธฐ ์ ์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ ๋ง๊ฒ Sort & Merge ํ๋ค. (Shuffring)
- Reducer๋ ์ ๋ฌ ๋ฐ์ ๋ฐ์ดํฐ์ ์์ฒญํ ์ฐ์ฐ์ ์ํํ๋ค. (Reducing = sum)
- Reducer๋ค์ด ์ฒ๋ฆฌํ ๋ฐ์ดํฐ๋ฅผ ํฉ์น๋ค.
์์ฝ
- Hadoop Ecosystem์ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ํ๋ก๊ทธ๋จ์ ํ๋ซํผ(๋๋ ์งํฉ์ฒด).
- HDFS, YARN, MapReduce ํต์ฌ ์ปจ์ ์ ๋ฐ๋ผ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ค.
- Hadoop Ecosystem์ ์๋ ๊ตฌ์ฑ ํ๋ก๊ทธ๋จ๋ค์ ๋ชจ๋ ์คํ์์ค๋ฉฐ, ๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด์ ๊ธฐ๋ฅ๋ณ๋ก ๊ตฌํ๋๊ณ ์๋ค.
Hands-on
- HDFS์ ๋ํด์ ์ ๋ฆฌ๋ ๋ธ๋ก๊ทธ๋ฅผ 3๊ฐ ์ฝ๊ณ , ์์นด์ด๋นํด๋ณด์ธ์.
- YARN์ ๋ํด์ ์ ๋ฆฌ๋ ๋ธ๋ก๊ทธ๋ฅผ 3๊ฐ ์ฝ๊ณ , ์์นด์ด๋นํด๋ณด์ธ์.
- MapReduce์ ๋ํด์ ์ ๋ฆฌ๋ ๋ธ๋ก๊ทธ๋ฅผ 3๊ฐ ์ฝ๊ณ , ์์นด์ด๋นํด๋ณด์ธ์.
Uploaded by N2T
728x90
๋ฐ์ํ