אנא אפשר JavaScript כדי להשתמש בתכונות הנגישות תכונות נגישות של אתרים על ידי UserWay
top of page

Azure Data Factory vs Databricks

Nissim Elaluf

עודכן: 24 בפבר׳ 2024




הי חברים 😊

 🌥 היום נעלה לענן 🌥

וננסה להבין מה קצת בעולמות ה Azure

מה הייחודיות של כל כלי ומה המטרות של השימוש בו

Azure Data Factory vs Databricks

עולמות המידע שלנו נותנים לנו את האפשרות להסיק תובנות משמעותיות לארגון מתוך ערמות הנתונים שנאגרים כל שניה ושניה, אך לרוב הנתונים לא מאורגנים בצורה נוחה או יושבים במערכות אחסון ישנות יחסית,

 Azure Data Factory &  Databricksאלו שני שירותי ענן שמסוגלים לטפל בכל אותם נתונים לא מאורגנים עם תהליכי Extract-Transform-Load (ETL) כדי להקל עלינו להקים בסיס טוב יותר לניתוחם.

בעוד ADF משמש עבור שירותי אינטגרציית נתונים בכדי למפות תנועות נתונים ממקורות שונים, Databricks מפשט את ארכיטקטורת הנתונים על ידי איחוד עומסי עבודה של נתונים,  מבצע אנליזות ו-AI בפלטפורמה אחת.

רגע רגע מה אני רץ ?!

מה זה בכלל Azure?



נעשה את זה פשוט 😊

פלטפורמת ענן ממוחשבת של מיקרוסופט שמספקת לנו מעטפת “עננית” של תוכנה + פלטפורמה + תשתית עבור מגוון רחב של משימות טכנולוגיות שאנו נדרשים בעבודה על נתונים.

Microsoft Azure מציעה גם מגוון רחב של פתרונות חכמים לאחסון הנתונים, ואנליזות מתקדמות ב-Big Data בכדי להפוך נתונים גולמיים לתובנות מניעות לפעולה.

אוקי אז מה זה Azure Data Factory?




Azure Data Factory הינה פלטפורמה לביצוע אינטגרציה בין מקורות מידע שונים (זוכרים את הE של הETL?), בדרך כלל, כלי ETL שואבים נתונים ממקורות שונים, מבצעים טרנספורמציות על הנתונים וטוענים אותם ליעד שיכול להיות מסד נתונים או מחסן נתונים DWH. ADF מספק כלי ETL נטול קוד בענן לביצוע מהיר של תהליכי ETL מורכבים.

להלן כמה מרכיבים חיוניים של ADF:

  •  Pipeline: זוהי קבוצה הגיונית של פעילויות שנבנתה לביצוע יחידת עבודה. Pipeline בודד מבצע פעולות שונות כמו העברת S2T של הנתונים או שיכלול תהליכים של טיוב וניקוי לנתונים לפני העברה למסד הנתונים של או לDWH.

  • Activities: אלו הפעולות שמרכיבות את ה Pipelin, יש סוגים שונים של פעולות

1.     Data Movement Activities

העתקות נתונים ו”שינועם” ממקום למקום

2.     Data Transformation Activities

יש סוגים שונים ורבים של טרנספורמציות שניתן לעשות כגון איחוד טבלאות, שינוי פורמט לשדות, פילטרים, מיפוי שדות ועוד

3.      Control Activities

יצירת משתנים, הרצה של Pipeline, תזמונים, לולאות ועוד

בנוסף יש את ה Datasets שמייצגים מבנה נתונים ואת ה Triggers שאיתם מבצעים הרצה של התהליכים שבנינו


טוב בואו נבין קצת את היתרונות של ADF

1.     Fully managed: ADF מנוהל במלואו על ידי מיקרוסופט שממנפת את Azure Integration Runtime לטיפול בתנועות נתונים, Spark Cluster למיפוי הזרימה של הנתונים, כלים למפתחים ו-API כדי להבטיח ביצועים מעולים.

2.     Low-code: ההיבט המאתגר ביותר של תהליך ה-ETL הוא שלב הטרנספורמציה. ארגונים מפתחים סקריפטים מותאמים אישית שנכתבו בשפות תכנות שונות כמו C#, SQL ו-Python בהתבסס על הדרישות העסקיות. אך זה מייגע לתקן באגים עם עשרות אלפי שורות קוד או יותר. לעומת זאת, ADF עוזר למשתמשים ליצור טרנספורמציות ללא קוד כדי לצמצם את זמן האספקה של התובנות הרצויות, ובכך לשפר את הפרודוקטיביות.

3.     Graphical User interface: ADF מספק ממשק משתמש גרפי (GUI) המאפשר תכונות drug and drop ליצירת תהליכי אינטגרציה לנתונים בקלות.

אוקי אז מה זה Databricks?

מה כבר יכול להיות חסר לי ?



Databricks הוא כלי הנדסת נתונים שמעבד והופך כמויות אדירות של נתונים למודלים של Machine Learning. תומך בשירותי ענן שונים כמו Azure, AWS ו-Google Cloud.

לדוגמה, Databricks מותאמת לפלטפורמת שירותי הענן של Microsoft Azure (Azure Databricks) המציעה סביבות SQL, Data Science, Data Engineering ו-Machine Learning לפיתוח יישומים מבוססי נתונים. עם Databricks SQL, אנליסטים יכולים להריץ שאילתות SQL ב-Data Lakes, ליצור דשבורדים ומסכי תחקור להציג תוצאות משאילתות מורכבות ולשתף אותם. Databricks מספקת גם סביבת עבודה אינטראקטיבית ושיתופית למהנדסי נתונים ומהנדסי למידת מכונה לבניית פרויקטים מורכבים של Data Science בקלות.


היתרונות העיקריים של Databricks

Adaptability: (יכולת ההסתגלות) למרות ש-Databricks היא פלטפורמת ניתוח מבוססת Spark, היא עדיין מאפשרת לשפות תכנות מרובות כמו Python או SQL ליצור אינטראקציה עם Spark. מכיוון שהוא משלב גם API של שפה מאחורי הקלעים כדי ליצור אינטראקציה עם Spark, יש לו יכולת הסתגלות גבוהה יותר בדומיינים של Big Data ו-Machine Learning.

Integration: Databricks משתלבת עם פלטפורמת Azure כדי להניע את פתרונות Azure Big Data עם כלי למידת מכונה בענן. ניתן להמחיש את התוצאות של פתרונות Machine Learning ב-Power BI באמצעות חיבור ל Databricks כדי להפיק תובנות חשובות.

Collaboration: ניתן להביא סקריפטים שנכתבו באופן מידי לשלב הייצור ב-Databricks. התכונה השיתופית מספקת סביבה למספר חברים לבניית יישומי מודל נתונים ולמידת מכונה בצורה יעילה יחד.

בשורה התחתונה :

אם יש לך בארגון צורך בקליטת נתונים וטרנספורמציות בסיסיות, בנוסף אין לך ניסיון בקידוד עם Python, Scala או Java, ואין לך זמן או שאיפה ללמוד Apache Spark.

הייתי מייעץ להשתמש ב- Azure Data Factory

אך כאשר:

אתה צריך פתרון גנרי וניתן להרחבה שניתן ליישם על מספר מקורות נתונים ומקרי שימוש.

יש לך ניסיון בקידוד ואתה רוצה ללמוד Apache Spark. או שאתה כבר יוצר פתרונות נתונים מורכבים.

כדאי כבר לשקול שימוש ב Azure Databricks

Commentaires


bottom of page