דיקטה

מתוך ויקיפדיה, האנציקלופדיה החופשית
דיקטה - המרכז לניתוח טקסטים
DICTA - The Israel Center for Text Analysis (R.A.)
מדינה ישראלישראל ישראל
אתר האינטרנט הרשמי של דיקטה
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית

דיקטה - המרכז לניתוח טקסטים היא עמותה ישראלית שעוסקת במחקר וחינוך בתחום הבלשנות החישובית ויישומה בשפה העברית, לרבות הספרות התורנית לדורותיה.

העמותה מספקת כלים המשתמשים באלגוריתמי בינה מלאכותית, למידת מכונה, עיבוד שפה טבעית ומודלי שפה, למטרת מחקר, עיבוד וניתוח טקסטים עבריים וליצירת תוכן עברי, הכלים ניתנים לשימוש חופשי ובקוד פתוח לתועלת הציבור.

היסטוריה[עריכת קוד מקור | עריכה]

העמותה נוסדה על ידי פרופ' משה קופל, נרשמה בשנת 2015 והחלה בפעילות זמן קצר לאחר מכן[1].

שירותים[עריכת קוד מקור | עריכה]

מודל Dicta-LM 2.0[עריכת קוד מקור | עריכה]

בשנת 2024 הציגה העמותה יחד עם מפא"ת, האיגוד הישראלי לטכנולוגיות שפת אנוש וצוות חוקרים מאינטל מודל שפה גדול (LLM), פתוח לשימוש מסחרי ומחקרי תחת רישיון Apache 2.0, שהותאם במיוחד לשימוש בעברית לשימושים מגוונים כצ’אטבוט, כלי תרגום ועוד.[2]

המודל היה המודל הראשון שפורסם שעוצב מראש לשימוש בשפה העברית[3].

לדברי המפתחים, המודל שלהם עולה על המודלים האחרים הקיימים בגודל דומה, ומגיע לתוצאות תחרותיות אל מול מודלים גדולים בהרבה (כדוגמת GPT4 או Claude), ובמבחן השוואה עיוור המודל מנצח את גוגל תרגום בלמעלה מ-74 אחוז מהפעמים.[2]

נקדן[עריכת קוד מקור | עריכה]

ה"נקדן" היא מערכת מתקדמת המיועדת לניקוד אוטומטי של טקסט עברי, שפותחה על ידי ד"ר אבי שמידמן, חוקר במחלקה לספרות עם ישראל בבר-אילן וחבר־יועץ באקדמיה ללשון עברית, שאלתיאל שמידמן, פרופ' משה קופל, פרופסור למדעי המחשב ופרופ' יואב גולדברג, מומחה למדעי המחשב ובלשנות[4]. התוכנה, בניגוד לתוכנות ניקוד אחרות שקיימות בשוק, תוכנתה "להבין שפת אנוש", ולא רק להחזיק מאגר של מילים מנוקדת ולנסות להצמיד בין מילה חסרת-ניקוד למילה מנוקדת מתאימה, ולכן הנקדן יבחר בדרך כלל את הניקוד המתאים למילה[5], המערכת משתמשת במודלים מודרניים של רשתות עצביות יחד עם ידע לשוני נרחב ומשאבים שנאספו באופן ידני כדי להשיג דיוק גבוה בהצבת דיאקריטים. המערכת תומכת בעברית מודרנית, רבנית ופואטית וכוללת תכונות לתיקון ידני, מה שהופך אותה לשימושית ליצירת מהדורות אקדמיות של טקסטים היסטוריים. המערכת נגישה באופן חופשי באינטרנט לשימוש הציבור[6].

הש"ס המנוקד[עריכת קוד מקור | עריכה]

בעזרת הנקדן הצליחו בדיקטה להפיק גרסה מנוקדת שלמה של כל התלמוד הבבלי בתוך ארבע שנים על ידי עובד אחד במשרה חלקית, עבודה שללא הנקדן הייתה אורכת שנים רבות על ידי צוות שלם, העבודה גם דרשה מחקר בלשני בארמית על מנת להכריע כיצד יש לנקד מילים מסוימות. הש"ס המנוקד מוצג באתר פורטל הדף היומי, באתר על התורה ובאתר ספריא.[5][7][8]

מנועי חיפוש מתקדמים במקורות היהודיים[עריכת קוד מקור | עריכה]

דיקטה מספקים מגוון אפשרויות חיפוש מתקדמים לחיפוש מילים וביטויים בתנ"ך, בתלמוד ובטקסטים רבניים נוספים. החיפוש כולל חיפוש לפי הקשר, חיפוש לפי מילים דומות, התעלמות מהבדלי איות והטיה, זיהוי תווים אופטי, תיקון אוטומטי של שגיאות פיענוח על פי הקשר ועוד.

מיזמים נוספים[עריכת קוד מקור | עריכה]

[9]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ דיקטה - המרכז לניתוח טקסטים (ע"ר) - מסמכים ודיווחים, באתר www.guidestar.org.il
  2. ^ 1 2 Dicta-LM 2.0 - מודל שפה גנרטיבי גדול בעברית, פתוח, וחזק!, באתר dicta.org.il
  3. ^ הכירו את Dicta-LM 2.0 – מודל שפה גדול, חינמי ופתוח בעברית, באתר מגזין טכנולוגיה ובידור - Gadgety, ‏3 במאי 2024
  4. ^ Yoav Goldberg, u.cs.biu.ac.il
  5. ^ 1 2 יעקב לויפר, דיקטה - הש"ס המנוקד, מתוך הרצאה שהועברה באוניברסיטת חיפה, ‏18 ביוני 2023
  6. ^ Avi Shmidman, Shaltiel Shmidman, Moshe Koppel, Yoav Goldberg, Nakdan: Professional Hebrew Diacritizer, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, Association for Computational Linguistics, 2020-07, עמ' 197–203 doi: 10.18653/v1/2020.acl-demos.23
  7. ^ הש״ס המנוקד, באתר talmud.dicta.org.il
  8. ^ הרצאתו של הרב לויפר על השס המנוקד, הועברה במסגרת סדנה על מהדורות לספרות היהודית הקלאסית בעידן הדיגיטלי, שהתקיימה באוניברסיטת חיפה, סרטון בערוץ "Dicta דיקטה", באתר יוטיוב (אורך: 20:14), יוני 2023
  9. ^ אתר למנויים בלבד איילת כהנא, ‏האלגוריתם שחזה את מעבר אחוז החסימה של רע"ם, בעיתון מקור ראשון, 29 במרץ 2021