אנא אפשר JavaScript כדי להשתמש בתכונות הנגישות תכונות נגישות של אתרים על ידי UserWay
top of page

Delta Parquet In Microsoft Fabric

  • תמונת הסופר/ת: Nissim Elaluf
    Nissim Elaluf
  • 23 בפבר׳ 2024
  • זמן קריאה 5 דקות

עודכן: 24 בפבר׳ 2024



מה שלומכם חברים בואו תשמעו משהו מרגיע 🙂

אנו יודעים שהריבוי ההולך וגובר של נתונים ושל כלים לניתוחם כגון בינה עסקית ונתוני תהליכי ייצור, הובילה ליצירת פתרונות רבים יעילים יותר או פחות לניהול ואחסון נתונים. כל מי שכבר הציץ על Microsoft Fabric יודע מה הוא מאגד בתוכו, אך אחד הפתרונות המתקדמים והמובילים בתחום ניהול הנתונים הוא דלתא פרקט. בעבר כתבתי עלVertiPaq Engine (לינק לסקרנים) והיום במאמר זה אנו מתעמקים בנושא ונגיע להבנה מעמיקה של המבנה והתכונות של Delta Parquet

Parquet הוא פורמט אחסון עמודי (הקבצים מאורגנים לפי עמודות, ולא לפי שורה, מה שחוסך מקום אחסון ומאיץ שאילתות ניתוח.) שמאפשר טיוב ביצועים ויכולות דחיסה מצוינות. Delta Parquet, שנבנה על גבי Parquet, משפר את הפונקציונליות שלו על ידי הוספת יכולות עסקה וניהול גרסאות נתונים. במאמר זה נבחן את המושגים והיתרונות המרכזיים של Delta Parquet בהקשר של Microsoft Fabric.

סקירה כללית של דלתא פרקט:

מבוא לפרקט:

פרקט הוא פורמט קבצי נתונים כאחסון עמודות – Column-based format שמאחסן ומחזיר נתונים ביעילות, משפר את ביצועי השאילתות על ידי טכניקות מזעור קריאת נתונים ודחיסה שמפחיתות את דרישות האחסון, וכן זה כמו המנוע הTabularי’.

בואו קודם נבין מה זה Delta Lake, ואז נתקדם,



בהקשר של- Data Lake ,Microsoft Fabric הוא מונח שמתייחס למבנה ארגוני לאחסון וניהול נתונים גדולים ושונים בתוך סביבת עבודה מאוחדת, נסו לדמיין כמו OneDrive ארגוני בו נשמרים כל הנתונים בצורה מובנת והירארכית. Data Lake מאפשר לארגונים לאחסן כמויות גדולות של נתונים במבנה פשוט, ולאחד נתונים מגוונים ממקורות שונים על מנת ליצור מקור נתונים מרכזי, יתרון של Fabric הוא שהנתונים יהיו מסודרים בצורה הירארכית מנוהלת הרשאות ורמות גישה שונות, המנוע עצמו ימשיך וינתח את הנתונים ויוסיף אינדקסים או יבצע פעולות לשם אופטימיזציה ואפילו ישרשר אבטחה מטבלאות מסווגות לאלו הקשורות אלייהן בהמשך המודל!

בתוך Data Lake, נתונים נשמרים בתור קבצים גרפיים או תיקיות, וניתן לארגן אותם לפי מבנה יעודי באמצעות רכיבים כמו מטה-נתונים (metadata) ומופעים (instances) בData Center. הנתונים בתוך Data Lake ניתנים לגישה ועיבוד בצורות שונות, דבר המאפשר יכולת גבוהה יותר של איחסון, גיבוי, חיפוש וניתוח של הנתונים באופן מרוכז.

Microsoft Fabric מספק תמיכה מובנית עבור Data Lake בתוך הפלטפורמה שלו. הוא מאפשר איחסון וניתוח נתונים בתוך Data Lake באמצעות כלים ושירותים מתקדמים, כולל יכולות ניתוח גבוהות, חיפוש ושאילתא, עיבוד ויזואלי, ואפשרויות לעבודה עם מגוון טכנולוגיות מתקדמות נוספות כגון מערכות של חיפוש בזמן אמת.

השילוב של Data Lake בתוך Microsoft Fabric מספק למשתמשים ולצוותי BI יכולת לאחסן, לארגן ולנתח נתונים בצורה מרוכזת ואפקטיבית. ובכך מאפשר יכולת גבוהה יותר לניתוח מתקדם של הנתונים, זיהוי טרנדים ותבניות בכדי לקבל תובנות מעמיקות יותר.

סבבה הבנתי ועכשיו תכלס מה זה Delta Parquet

Delta Parquet מרחיב את הפונקציונליות של פרקט על ידי הוספת יכולות טרנזקציות וניהול גרסאות נתונים.

למי שעובד עם PBI אני בטוח שהיכולת הזו חסרה, בואו נראה איך Delta Parquet מאפשר לבצע עדכונים, מחיקות או הוספות של קבצי נתונים, ועדיין מאפשר לשמור על נתונים עקביים ומהימנים בסביבה כל כך מבוזרת.

תכונות עיקריות של Delta Parquet:

טארנזקציות ACID:

Delta Parquet תומך בטרנזקציות ACID

(Atomicity, Consistency, Isolation, Durability)

מה שמבטיח שלמות נתונים ועקביות, המשמעות היא שפעולות המבוצעות על קבצי Delta Parquet הושלמו במלואן או לא מבוצעות כלל, תוך שמירה על שלמות הנתונים הכוללת. בנוסף, Delta Parquet מספקת עקביות על ידי אכיפת אילוצים מוגדרים מראש על הנתונים, בידוד על ידי מניעת הפרעות בין עסקאות במקביל, ועמידות על ידי שינויים מתמשכים בנתונים גם במקרה של כשלים במערכת.

מיד ארחיב על מאפייני ה-ACID שמספקת Delta Parquet וכיצד הם מאפשרים פעולות נתונים אמינות במערכת מבוזרת.

גירסאות נתונים:

Delta Parquet מנהלת גרסת נתונים, שמאפשרת לנו לעקוב אחרי שינויים בנתונים לאורך זמן.

נצא למסע בזמן?

תכונת Time travel של Delta Parquet מאפשרת לנו לבצע שאילתות בנתונים מנקודת זמן מסוימת, ובכך לבצע ניתוח היסטורי ולקבל תובנות לגבי מצב הנתונים שלך בנקודות זמן שונות,

DATA TIME TRAVEL

כיצד מסע בזמן עובד?

מסע בזמן (time travel) הוא אפשרות שקיימת ב-Delta Parquet שמאפשרת צפייה ושחזור של גרסאות קודמות של הנתונים. דרך זו, אפשר לעיין בתוכן הנתונים בנקודות זמן שונות ולבצע פעולות ניתוח בהתאם למצב הנתונים באותו זמן.

בעצם, כל פעם שנתונים חדשים מתווספים ל-Delta Parquet, מתווספת גם “רשומת מטה” (metadata record) שמתעדת את השינוי. רשומת המטה כוללת מידע כמו תאריך השינוי, סוג הפעולה ועוד. כאשר מבוצעת פעולת מסע בזמן, המערכת יכולה להשתמש ברשומות המטה כדי למצוא את הנתונים בנקודת הזמן הרצויה.

בעת ביצוע מסע בזמן, ניתן לבצע שאילתות לפי תאריך או מזהה של גרסה קודמת של הנתונים. המערכת מספקת את התוצאות בהתאם למצב הנתונים בזמן המבוקש. ניתן לצפות בנתונים כמו שהם היו בזמן קודם, וכך לבצע ניתוחים והשוואות בין גרסאות שונות.



לדוגמה, אם יש לנו קובץ Delta Parquet שמכיל מידע על תנועות כספיות בבנק ונרצה לראות את המצב הכספי בתאריך מסוים בעבר, נוכל לבצע מסע בזמן ב-Delta Parquet ולציין את התאריך המבוקש. כתוצאה מכך, נוכל לקבל את הנתונים כפי שהם היו באותו תאריך בעבר, ולבצע ניתוחים וחישובים על פי המצב הכספי בתאריך המבוקש, מדהים לא ???

גירסאות נתונים:

Delta Parquet מאפשר ניהול גרסאות לנתונים ולקבצי הפיתוח, ראינו שיש יכולת לעקוב אחר שינויים בנתונים שלך לאורך זמן. כל שינוי שנעשה בקובץ Delta Parquet נרשם כגרסה חדשה, שמספקת תצוגה היסטורית של הנתונים. תכונה זו היא בעלת ערך למטרות ביקורת, דרישת תאימות והיכולת לנתח נתונים כפי שהם מתפתחים עם הזמן. עם ניהול גרסאות נתונים, נוכל לחזור בקלות לגרסאות קודמות של הקבצים, לאפשר שחזור נתונים או חזרה למצב נדרש מהעבר.

אינטגרציה עם Microsoft Fabric

כעת נבין את הכח בשילוב של Delta Parquet בתוך מערכת האקולוגית של Data Fabric.

ביצועים :

סעיף זה מדגיש את יתרונות הביצועים של שימוש ב-Delta Parquet ב Microsoft Fabric.

נבין כיצד Delta Parquet מייעל את עיבוד השאילתות, משפר את ניצול המשאבים ומשפר את הביצועים הכוללים.



Delta Parquet מציע מספר יתרונות שעוזרים לייעל את עיבוד השאילתות ולשפר את ניהול המשאבים בתהליך הניתוח והעיבוד של הנתונים. הנה כמה דוגמאות:

  1. קריאה יעילה של נתונים: Delta Parquet משתמש בתצורת האחסון Parquet, הידועה ביעילותה הגבוהה בקריאה והפעלה של נתונים. פורמט האחסון המתקדם הזה מאפשר קריאה מהירה של כל הנתונים במבנה של עמודות שמותאם לעיבוד קריאה של נתונים עצומים בבת אחת, מה שמפחית את הזמן של השאילתות ומקנה ביצועים משופרים.

  2. דחיסת נתונים: תצורת האחסון של Delta Parquet מאפשרת דחיסת נתונים בצורה יעילה. הדחיסה מפחיתה את צריכת האחסון ומאפשרת שימוש יעיל יותר במשאבי האחסון, מה שמביא לשיפור בניהול המשאבים.

  3. פריסה קבוצתית- Grouped Deployment: Delta Parquet מאפשרת פריסה מקבוצת של הנתונים, פריסה מקובצת היא עיקרון שבו הנתונים מחולקים למספר חלקים נפרדים הנקראים “קבוצות”. כל קבוצה מורכבת מקבצי נתונים פיזיים בפורמט Delta Parquet. פריסה מקובצת מאפשרת לנו לשפר את הביצועים של עיבוד נתונים ושאילתות. במהלך פריסה מקובצת, הנתונים מחולקים לחלקים עצמאיים שניתן להעביר ולעבד במקביל על ידי מספר תהליכים או שרתים. כל קבוצה מוקצית לתהליך נפרד או לשרת מרכזי, מה שמאפשר למערכת לעבד ולשאול נתונים מקבוצות שונות בו זמנית. היתרון העיקרי של פריסה מקובצת הוא שהיא מאפשרת עיבוד מקביל וחילוץ של מספר קבצים מקבוצות שונות בו זמנית. זה מספק ביצועים משופרים ומאפשר עיבוד מהיר יותר של נתונים, במיוחד בתהליכים הכוללים עיבוד בקנה מידה גדול או שלבי קריאה/כתיבה מרובים. אז בואו נראה מה המסקנה שלנו Delta Parquet הוא פורמט אחסון מתקדם שמספק יתרונות משמעותיים בניהול נתונים, ניתוח נתונים וביצועי שאילתות. בנוסף, השילוב של Delta Parquet עם כלים אחרים בתחום ה-BI וניתוח הנתונים, כגון Power BI ו-Microsoft Fabric, יכול לספק למשתמשים מערך מקיף ומשולב של יכולות לניתוח וניהול נתונים. מכאן נוכל להסיק ששימוש בדלתא פרקט ובכלים תומכים כמו Microsoft Fabric יכול להציע לכם את היתרונות הבאים:

  4. שימור שלמות הנתונים וטריותם עם תמיכת עסקאות ACID.

  5. יעילות גבוהה בביצוע שאילתות ועיבוד נתונים, המאפשרת ניתוח מהיר ויעיל יותר.

  6. ניהול נתונים פשוט ואופטימיזציה של משאבים באמצעות תכונות כמו התפתחות סכימה ודחיסה.

  7. ניהול גרסאות וגמישות בטיפול בכמויות גדולות של נתונים עם יכולות עיבוד מבוזרות.

  8. שיפור ניהול הנתונים ואיכות הנתונים באמצעות ניהול גרסאות, ניהול MetaData ומעקב אחר שינויים נתונים.

באופן כללי, אנחנו עוד לא מבינים את כל העולם של Fabricאבל מאמינים שיותר מהר ממה שנחשוב אנחנו כבר נתחיל ליישם את השיטות החדשות ביום יום שלנו

תודה שהייתם איתי – מקווה שנתתי ערך

 
 
 

Comments


bottom of page