סטנדרטים

מרכז הידע פיתח סטנדרטים לייצוג מידע לשוני המשמשים בכל המשאבים והכלים שהמרכז מפתח, כדי לאפשר שילוב כלים ומשאבים. המרכז מעודד חוקרים ומפתחים להשתמש בסטנדרטים הללו בעבודתם. שני הסטנדרטים העיקריים הם סכמות XML עבור הלקסיקון ועבור קורפוסים.


סכמת תעתוק

כדי לייצג אותיות עבריות בתעתיק לטיני, אנו משתמשים בטבלת ההמרה הבאה:

א ב ג ד ה ו ז ח ט י כ ל מ נ ס ע פ צ ק ר ש ת
a b g d h w z x v i k l m n s y p c q r e t

(אותיות סופיות אינן מקבלות סימון מיוחד.)


סכמת XML לייצוג קורפוסים

אנו משתמשים בסכמה הבאה לייצוג כל הקורפוסים המופצים על ידי מיל"ה:

גרסאות קודמות:


סכמת XML לייצוג הלקסיקון:

מבנה הלקסיקון העברי נקבע בסכמת ה-XML הבאה:

גרסאות קודמות: