Muundo wa data ya parquet ni nini?
Muundo wa data ya parquet ni nini?

Video: Muundo wa data ya parquet ni nini?

Video: Muundo wa data ya parquet ni nini?
Video: Сафари в Танзании | Тарангире - Нгоронгоро - гора Килиманджаро | Обзор маршрута 2024, Novemba
Anonim

Apache Parquet ni safu wima huria na huria inayoelekezwa data hifadhi umbizo ya mfumo ikolojia wa Apache Hadoop. Ni sambamba na wengi wa data mifumo ya usindikaji katika mazingira ya Hadoop. Inatoa ufanisi data mipango ya ukandamizaji na usimbaji yenye utendakazi ulioimarishwa ili kushughulikia changamano data kwa wingi.

Kwa hivyo, ni muundo gani wa faili ya parquet?

Parquet , chanzo wazi umbizo la faili kwa Hadoop. Parquet huhifadhi miundo ya data iliyowekwa kwenye safu bapa umbizo . Ikilinganishwa na mbinu ya kitamaduni ambapo data huhifadhiwa kwa mkabala unaolenga safu mlalo, parquet ina ufanisi zaidi katika suala la uhifadhi na utendaji.

Zaidi ya hayo, parquet inatumika kwa nini? Parquet ni umbizo la faili la chanzo huria linalopatikana kwa mradi wowote katika mfumo ikolojia wa Hadoop. Apache Parquet imeundwa kwa ufanisi na pia umbizo la uhifadhi wa safu bapa la data ikilinganishwa na faili za safu mlalo kama vile faili za CSV au TSV.

Zaidi ya hayo, umbizo la parquet huhifadhije data?

DATA ZUIA Kila kizuizi kwenye parquet faili ni kuhifadhiwa kwa namna ya vikundi vya safu. Kwa hiyo, data ndani ya parquet faili imegawanywa katika vikundi vingi vya safu. Vikundi hivi vya safu mlalo kwa zamu vinajumuisha vijisehemu vya safu wima moja au zaidi ambavyo vinalingana na safu katika safu wima data kuweka. The data kwa kila safu ya safu iliyoandikwa kwa namna ya kurasa.

Je, parquet ya binadamu inaweza kusomeka?

ORC, Parquet , na Avro pia ni mashine- inayosomeka umbizo la binary, ambayo ni kusema kwamba faili zinaonekana kama gibberish binadamu . Ikiwa unahitaji binadamu - inayosomeka umbizo kama JSON au XML, basi labda unapaswa kufikiria tena kwa nini unatumia Hadoop hapo kwanza.

Ilipendekeza: