اسپارک

‌‌‌‌‌‌‌

نام سرفصل

ردیف

ماژول

ردیف

عنوان دوره

بیگ دیتا چیست؟

۱

پیش زمینه بیگ دیتا و هدوپ

اهداف آموزشی

در این ماژول شما مفهوم بیگ دیتا را یاد خواهید گرفت، با محدودیت های مساله بیگ دیتا آشنا خواهید شد، اینکه چطور هدوپ مساله بیگ دیتا را حل می کند را فراخواهید آموخت و اجزای عمومی اکوسیستم هدوپ، معماری هدوپ، HDFS ، YARN و Replication را خواهید شناخت.

۱

اسپارک

(مدت زمان دوره: ۴۰ ساعت)

 

سناریوهای مشتری در بیگ دیتا

۲

ویژگی های اساسی هدوپ

۳

اکوسیستم معمول هدوپ

۴

اجزای اصلی هدوپ ۲

۵

محدودیت ها و راه حل های رفع مشکلات فعلی ساختار معماری تحلیل داده

۶

هدوپ چطور مساله بیگ دیتا را حل می کند

۷

هدوپ چیست؟

۸

HDFS

9

YARN

10

اکوسیستم هدوپ

۱

معماری هدوپ و بارگزاری داده با استفاده از Sqoop

اهداف آموزشی

در این ماژول شما با معماری کلاستر هدوپ آشنا خواهید شد و یک دید کلی در خصوص آپاچی اسکوپ و نحوه استفاده از آن (وارد و خارج کردن پایگاه داده از RDBMS به HDFS و بلعکس) بدست خواهید آورد.

۲

یارن و برتری‌های آن

۲

کلاستر هدوپ و معماری آن

۳

ویژگی های اساسی کلاستر هدوپ

۴

هدوپ: مد های مختلف کلاستر

۵

دستورات اولیه هدوپ

۶

فایل های تنظیمات هدوپ ۲

۷

بارگزاری داده با استفاده از اسکوپ

۸

Batch‌‌‌‌‌‌‌ آنالیز بیگ دیتا با

۱

مقدمات آپاچی اسپارک

اهداف آموزشی

در این ماژول شما با فریم ورک های مختلف آنالیز داده آشنا خواهید شد و نگاهی گذرا به مقدمات اسپارک خواهید انداخت. همچنین یکسری دموی ساخت و اجرای برنامه اسپارک و Web UI را هم بررسی خواهیم کرد.

 

۳

پردازش در لحظه

۲

چرا به اسپارک نیاز داریم؟

۳

اسپارک چیست؟

۴

اسپارک چه تفاوت هایی با رقبایش دارد؟

۵

eBay‌‌‌‌‌‌‌ استفاده از اسپارک در

۶

جانمایی اسپارک در اکوسیستم هدوپ

۷

اجزای اسپارک و معماری آن

۸

Spark Shell‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ و Scala IDE‌‌‌‌‌‌‌ اجرای برنامه های مبتنی بر

۹

Spark Web UI

10

تنظیم ویژگی های اسپارک

۱۱

مشکلات روش های فعلی محاسباتی

۱

بازی با RDD ها

اهداف آموزشی

در این ماژول شما اصول ساخت بلوک های RDD های اسپارک و اجرای منطق های بیزنس روی آنها را یاد خواهید گرفت. در خصوص اپلیکیشن های اسپارک و اینکه چطور پیاده سازی می شوند و همچنین نحوه تنظیم ویژگی های اسپارک هم مواردی را خواهید آموخت.

۴

چیست، کاربردهای آن کدامند؟ RDD‌‌‌‌‌‌‌

۲

ها RDD بارگزاری و ذخیره سازی داده از طریق

۳

ها RDD‌‌‌‌‌‌‌ های جفت کلید و سایر RDD

۴

RDD Lineage

5

راه حل های احتمالی و اینکه چطور RDD مشکلات را حل می کند

۶

RDD‌‌‌‌‌‌ ثبات در

۷

دستیابی به موازی سازی

۸

RDD‌‌‌‌‌‌‌ برنامه شمارش کلمه با استفاده از مفاهیم

۹

Spark SQL‌‌‌‌‌‌‌ نیاز به

۱

DataFrame ها و Spark SQL

اهداف آموزشی

در این ماژول در خصوص Spark SQL که برای پردازش داده‌های ساختاریافته با استفاده از کوئری های SQL استفاده می‌شود خواهید آموخت. شما در خصوص دیتافریم ها و دیتاست ها در Spark SQL و اینکه چطور عملیات SQL را بر روی دیتافریم ها انجام دهید هم دید کاملی پیدا خواهید کرد.

۵

چیست؟ Spark SQL‌‌‌‌‌‌‌

۲

Spark SQL‌‌‌‌‌‌‌ معماری

۳

Spark SQL‌‌‌‌‌‌ در SQL‌‌‌‌‌‌‌ مفهموم

۴

دیتافریم ها و دیتاست ها

۵

JSON

6

بارگزاری داده از منابع مختلف

۷

یادگیری ماشین چیست؟

۱

یادگیری ماشین با استفاده از Spark MLlib

اهداف آموزشی

در این ماژول شما در خصوص اینکه چرا یادگیری ماشین مهم است، انواع مفاهیم یادگیری ماشین، کلاسترینگ و MLlib ، الگوریتم‌های مختلفی که توسط MLlib پشتیبانی می شوند و کلاسترینگ K-Means مطالبی خواهید آموخت.

 

۶

یادگیری ماشین کجا استفاده می‌شود؟

۲

انواع مختلف تکنیک‌های یادگیری ماشین

۳

تشخیص چهره (استفاده موردی از یادگیری ماشین)

۴

درک MLlib

5

ویژگی‌های MLlib و ابزارهای MLlib

6

پشتیبانی می شوند MLlib‌‌‌‌‌‌‌ الگوریتم‌های مختلفی که توسط

۷

و اینکه چطور با K‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌-Means‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ کلاسترینگ کارمی کند MLlib‌‌‌‌‌‌‌

۸

موضوعات

۱

درک آپاچی کافکا و کلاستر کافکا

اهداف آموزشی

در این ماژول شما با کافکا و معماری کافکا آشنا خواهید شد. بعد از آن به جزئیات کلاستر کافکا می‌پردازیم و یاد خواهید گرفت که چطور انواع کلاسترهای کافکا را پیاده سازی کنید.

۷

نیاز به کافکا

۲

کافکا چیست؟

۳

اصول اساسی کافکا

۴

معماری کافکا

۵

کافکا کجاها استفاده می‌شود؟

۶

اجزای کلاستر کافکا

۷

تنظیم کلاستر کافکا

۸

تولید کننده و مصرف کننده

۹

نیاز به آپاچی فلوم

۱

کپچر داده با Apache Flume و ادغام با کافکا

اهداف آموزشی

در این ماژول مقدمه‌ای بر آپاچی فلوم و معماری اولیه آن و همچنین نحوه ادغام آن با آپاچی کافکا (برای پردازش اتفاقات) را پوشش خواهیم داد.

۸

آپاچی فلوم چیست؟

۲

معماری اولیه آپاچی فلوم

۳

منابع فلوم

۴

تنظیمات فلوم

۵

ادغام فلوم و کافکا

۶

مشکلات در روش های محاسباتی موجود

۱

استریم آپاچی اسپارک

اهداف آموزشی

در این ماژول شما شانس کار کردن با استریم در اسپارک که در ساخت برنامه های توسعه پذیر استریم مورد استفاده قرار می‌گیرد را خواهید داشت. شما همچنین در خصوص Dstream ها و انواع تبدیل‌هایی که روی آنها انجام می‌شود چیزهای خواهید آموخت.

۹

چرا نیاز به استریمینگ داریم

۲

استریمینگ اسپارک چیست؟

۳

ویژگی های استریمینگ اسپارک

۴

جریان استریمینگ اسپارک

۵

اوبر چطور از داده‌های استریم استفاده می‌کند

۶

Dstram ها

۷

تبدیلات بر روی Dstream ها

۸

برنامه شمارش کلمه با استفاده از استریمینگ اسپارک

۹

توضیح در خصوص عملگرهای پنجره‌ای و اینکه چرا استفاده می‌شوند.

۱

عملگرها در استریمینگ اسپارک

در این ماژول شما در خصوص عملگرهای اصلی استریمینگ، عملگرهای پنجره لغزان و عملگرهای دارای وضعیت خواهید آموخت.

۱۰

عملگرهای پنجره‌ای مهم

۲

عملگرهای قطعه، پنجره و ReduceByWindow

3

عملگرهای دارای وضعیت

۴

مرور کلی استریم منابع داده

۵