Kuna shida gani na faili ndogo kwenye Hadoop?
Kuna shida gani na faili ndogo kwenye Hadoop?

Video: Kuna shida gani na faili ndogo kwenye Hadoop?

Video: Kuna shida gani na faili ndogo kwenye Hadoop?
Video: Christopher Mwahangila - Uwe Nguzo (Official Music Video) SKIZA CODE *860*413# 2024, Novemba
Anonim

1) Tatizo la Faili ndogo katika HDFS : Kuhifadhi nyingi faili ndogo ambazo ni kubwa mno ndogo kuliko saizi ya kizuizi haiwezi kushughulikiwa kwa ufanisi HDFS . Kusoma kupitia faili ndogo kuhusisha utaftaji mwingi na kurukaruka kati ya nodi ya data hadi nodi ya data, ambayo inaleta usindikaji usiofaa wa data.

Kando na hii, ni faili gani zinazoshughulika na shida ndogo za faili katika Hadoop?

1) HAR ( Hadoop Hifadhi) Mafaili imetambulishwa kushughulikia suala la faili ndogo . HAR imeanzisha safu ya juu HDFS , ambayo hutoa kiolesura cha faili kupata. Kutumia Hadoop amri ya kumbukumbu, HAR mafaili huundwa, ambayo inaendesha a RamaniPunguza kazi ya kufunga mafaili inahifadhiwa kwenye kumbukumbu ndogo nambari ya Faili za HDFS.

Kwa kuongezea, ninaweza kuwa na faili nyingi katika HDFS kutumia saizi tofauti za block? Chaguomsingi ukubwa ya kuzuia ni 64 MB. wewe unaweza ibadilishe kulingana na hitaji lako. Nikija kwa swali lako ndio wewe inaweza kuunda faili nyingi kwa kutofautiana ukubwa wa block lakini kwa Wakati Halisi hii mapenzi sio kupendelea uzalishaji.

Zaidi ya hayo, kwa nini HDFS haishughulikii faili ndogo ipasavyo?

Matatizo na faili ndogo na HDFS Kila faili , saraka na zuia ndani HDFS ni inawakilishwa kama kitu kwenye kumbukumbu ya nodi, ambayo kila moja inachukua baiti 150, kama sheria ya kidole gumba. Zaidi ya hayo, HDFS sio iliyoandaliwa kwa ufikiaji kwa ufanisi faili ndogo :hii ni iliyoundwa kimsingi kwa ufikiaji wa utiririshaji wa kubwa mafaili.

Kwa nini Hadoop ni polepole?

Polepole Kasi ya Uchakataji Diski hii inatafuta inachukua muda na hivyo kufanya mchakato mzima kuwa mzuri sana polepole . Kama Hadoop huchakata data kwa kiasi kidogo, ni sana polepole kwa kulinganisha. Ni bora kwa seti kubwa za data. Kama Hadoop ina injini ya kuchakata bechi msingi kasi yake ya usindikaji wa wakati halisi ni ndogo.

Ilipendekeza: