Ujanibishaji wa data unapatikanaje katika Hadoop?
Ujanibishaji wa data unapatikanaje katika Hadoop?

Video: Ujanibishaji wa data unapatikanaje katika Hadoop?

Video: Ujanibishaji wa data unapatikanaje katika Hadoop?
Video: Введение в веб-сервисы Amazon, Лев Жадановский 2024, Novemba
Anonim

Ujanibishaji wa data katika Hadoop . Chukua mfano wa Wordcount, ambapo maneno mengi yamerudiwa kwa Laki 5 au mara zaidi. Katika hali hiyo baada ya awamu ya Mapper, kila pato la ramani litakuwa na maneno katika safu ya Lacs 5. Mchakato huu kamili wa kuhifadhi pato la Mapper kwa LFS unaitwa kama Ujanibishaji wa Data.

Kwa kuzingatia hili, ujanibishaji wa data katika Hadoop ni nini?

Dhana ya Data eneo ndani Takwimu za Hadoop eneo ndani RamaniPunguza inarejelea uwezo wa kusogeza hesabu karibu na mahali halisi data inakaa kwenye nodi, badala ya kusonga kubwa data kwa hesabu. Hii inapunguza msongamano wa mtandao na huongeza upitishaji wa jumla wa mfumo.

Pia, data kubwa huhifadhiwaje? Watu wengi huhusisha kiotomatiki HDFS, au Mfumo wa Faili Uliosambazwa wa Hadoop, na Hadoop data maghala. HDFS huhifadhi taarifa katika makundi ambayo yanajumuisha vizuizi vidogo. Vitalu hivi ni kuhifadhiwa kwenye tovuti ya kimwili hifadhi vitengo, kama vile anatoa za ndani za diski.

Kwa hivyo tu, data inahifadhiwaje katika Hadoop?

Juu ya Hadoop nguzo, data ndani ya HDFS na mfumo wa MapReduce umewekwa kwenye kila mashine kwenye nguzo. Data ni kuhifadhiwa katika data huzuia kwenye DataNodes. HDFS inaiga hizo data huzuia, kwa kawaida 128MB kwa ukubwa, na huzisambaza ili ziweze kuigwa ndani ya nodi nyingi kwenye nguzo.

Jinsi faili zinahifadhiwa katika HDFS?

HDFS inafichua a faili nafasi ya majina ya mfumo na inaruhusu data ya mtumiaji kuwa kuhifadhiwa katika mafaili . Kwa ndani, a faili imegawanywa katika kizuizi kimoja au zaidi na vizuizi hivi ni kuhifadhiwa katika seti ya DataNodes. NameNode inatekeleza faili shughuli za nafasi ya majina ya mfumo kama vile kufungua, kufunga, na kubadilisha jina mafaili na saraka.

Ilipendekeza: