RDD ni nini huko Scala?
RDD ni nini huko Scala?

Video: RDD ni nini huko Scala?

Video: RDD ni nini huko Scala?
Video: Счастливая история слепой кошечки по имени Нюша 2024, Aprili
Anonim

Seti za Data Zilizosambazwa kwa Ustahimilivu ( RDD ) ni muundo msingi wa data wa Spark. Ni mkusanyiko usiobadilika wa vitu uliosambazwa. RDD inaweza kuwa na aina yoyote ya Python, Java, au Scala vitu, pamoja na madarasa yaliyofafanuliwa na mtumiaji. Rasmi, a RDD ni mkusanyiko wa rekodi za kusoma tu, zilizogawanywa.

Swali pia ni, ni tofauti gani kati ya RDD na DataFrame?

RDD – RDD ni mkusanyiko uliosambazwa wa vipengele vya data vilivyoenea kwenye mashine nyingi ndani ya nguzo. RDD ni seti ya vitu vya Java au Scala vinavyowakilisha data. DataFrame -A DataFrame ni mkusanyiko uliosambazwa wa data iliyopangwa katika safu wima zilizotajwa. Kimsingi ni sawa na jedwali ndani ya hifadhidata ya uhusiano.

Zaidi ya hayo, RDD inasambazwa vipi? Ustahimilivu Imesambazwa Seti za data ( RDD ) Wao ni a kusambazwa mkusanyiko wa vitu, ambavyo huhifadhiwa kwenye kumbukumbu au kwenye diski za mashine tofauti za nguzo. Moja RDD inaweza kugawanywa katika sehemu nyingi za kimantiki ili sehemu hizi ziweze kuhifadhiwa na kusindika kwenye mashine tofauti za nguzo.

cheche RDD inafanyaje kazi?

RDD katika Cheche kuwa na mkusanyiko wa rekodi ambazo zina sehemu. RDD katika Cheche zimegawanywa katika sehemu ndogo za kimantiki za data - zinazojulikana kama sehemu, wakati hatua inatekelezwa, kazi itazinduliwa kwa kila kizigeu. Sehemu katika RDD ni vitengo vya msingi vya usawa.

Ambayo ni ya haraka RDD au DataFrame?

RDD - Wakati wa kufanya shughuli rahisi za kupanga na kujumlisha RDD API ni polepole. DataFrame - Katika kufanya uchambuzi wa uchunguzi, kuunda takwimu zilizojumlishwa kwenye data, muafaka wa data ni haraka . RDD - Unapotaka mabadiliko ya kiwango cha chini na vitendo, tunatumia RDD . Pia, tunapohitaji vifupisho vya hali ya juu tunatumia RDD.

Ilipendekeza: