Orodha ya maudhui:

Ninawezaje kutengeneza PySpark DataFrame kutoka kwenye orodha?
Ninawezaje kutengeneza PySpark DataFrame kutoka kwenye orodha?

Video: Ninawezaje kutengeneza PySpark DataFrame kutoka kwenye orodha?

Video: Ninawezaje kutengeneza PySpark DataFrame kutoka kwenye orodha?
Video: Введение в цепи Маркова с Python! 2024, Novemba
Anonim

Ninafuata hatua hizi za kuunda DataFrame kutoka kwa orodha ya nakala:

  1. Unda a orodha ya tuples. Kila nakala ina jina la mtu mwenye umri.
  2. Unda RDD kutoka kwa orodha juu.
  3. Geuza kila tuple kwa safu.
  4. Unda a DataFrame kwa kutumia createDataFrame kwenye RDD kwa usaidizi wa sqlContext.

Kuweka hii katika mtazamo, unabadilishaje DataFrame kuwa orodha kwenye Python?

  1. Hatua ya 1: Badilisha Dataframe kuwa safu ya Numpy iliyo kwenye kiota kwa kutumia DataFrame.to_numpy() yaani,
  2. Hatua ya 2: Geuza safu ya 2D Numpy kuwa orodha ya orodha.
  3. Hatua ya 1: Badilisha mfumo wa data ili kubadilisha safu mlalo kama safu wima na safu kama safu.
  4. Hatua ya 2: Geuza Dataframe kuwa safu ya Numpy iliyo kwenye kiota kwa kutumia DataFrame.to_numpy()

Kwa kuongeza, DataFrame ya cheche ni nini? A Cheche DataFrame ni mkusanyo uliosambazwa wa data iliyopangwa katika safu wima zilizotajwa ambayo hutoa shughuli za kuchuja, kuweka vikundi au kukokotoa mijumuisho, na inaweza kutumika na Cheche SQL. DataFrames inaweza kujengwa kutoka kwa faili za data zilizopangwa, RDD zilizopo, jedwali kwenye Hive, au hifadhidata za nje.

Pia Jua, PySpark SQL ni nini?

Cheche SQL ni a Cheche moduli ya usindikaji wa data iliyopangwa. Inatoa uondoaji wa programu inayoitwa DataFrames na inaweza pia kufanya kazi kama kusambazwa SQL injini ya kuuliza. Huwasha hoja ambazo hazijarekebishwa za Hadoop Hive kufanya kazi hadi mara 100 kwa kasi ya uwekaji na data iliyopo.

Je! DataFrames za cheche hazibadiliki?

Katika Cheche huwezi - DataFrames ni isiyobadilika . Unapaswa kutumia.

Ilipendekeza: