Orodha ya maudhui:

Ni aina gani tofauti za faili katika Hadoop?
Ni aina gani tofauti za faili katika Hadoop?

Video: Ni aina gani tofauti za faili katika Hadoop?

Video: Ni aina gani tofauti za faili katika Hadoop?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Novemba
Anonim

Kwa bahati nzuri kwako, jumuiya kubwa ya data kimsingi imetatua tatu zilizoboreshwa fomati za faili kwa matumizi katika Hadoop makundi: Safu ya Safu Iliyoboreshwa (ORC), Avro, naParquet.

Baadaye, mtu anaweza pia kuuliza, ni aina gani tofauti za fomati za data?

Kuna tatu aina za data ramani na GIS muundo wa data . Kila moja aina inashughulikiwa tofauti.

Aina za Muundo wa Data

  • Faili zinazotegemea faili- Maumbo, Faili za Usanifu wa Microstation (DGN), picha za GeoTIFF.
  • Orodha-msingi - ESRI ArcInfo Coverages, Sensa ya Marekani TIGER.
  • Viunganisho vya hifadhidata - PostGIS, ESRI ArcSDE, MySQL.

Zaidi ya hayo, ni umbizo gani la faili lililo bora zaidi kwenye mzinga? RFile ni safu mlalo umbizo la faili . Hii ni aina nyingine ya Umbizo la faili la Hive ambayo inatoa viwango vya juu vya ukandamizaji wa safu mlalo. Ikiwa una sharti la kufanya safu mlalo nyingi kwa wakati mmoja basi unaweza kutumia RFile umbizo.

Kwa kuzingatia hili, ni miundo gani ya kawaida ya kuingiza data katika Hadoop?

InputFormat huunda Mgawanyiko wa Pembejeo

  • InputFormat ya kawaida zaidi ni:
  • FileInputFormat- Ni darasa la msingi kwa faili zote-basedInputFormat.
  • TextInputFormat- Ni InputFormat chaguomsingi yaMapReduce.
  • KeyValueTextInputFormat- Ni sawa na TextInputFormat.
  • Fuata kiungo ili kujifunza zaidi kuhusu InputFormat katika Hadoop.

Umbizo la faili la orc ni nini katika Hadoop?

Ugani wa faili ORC Safu ya Safu Iliyoboreshwa ( ORC ) umbizo la faili hutoa njia bora ya kuhifadhi data ya Hive. Iliundwa ili kuondokana na mapungufu ya Mzinga mwingine fomati za faili . Kutumia faili za ORC inaboresha utendakazi wakati wa kusoma, kuandika na kuchakata data ya Hiveis.

Ilipendekeza: