קורפוסים

קורפוסים המתעדים שימוש בשפה הם משאבים יקרי ערך בתחומים שונים של בלשנות, כמו גם בבלשנות חישובית ועיבוד שפות טבעיות, שם הם משמשים לאיסוף נתונים כמותיים המאפשרים פיתוח של יישומים חישוביים מגוונים. מרכז הידע מפיץ מספר קורפוסים עבריים בתחומים שונים. כל הקורפוסים משווקים כטקסט גולמי, טקסט לאחר טוקניזציה או טקסט לאחר טוקניזציה ועיבוד מורפולוגי.

כל הקורפוסים מצייתים לסטנדרטים שפותחו על ידי המרכז.

ניתן למצוא סטטיסטיקות קורפוסים להלן:
קורפוס תיאור
הארץ
(HaAretz)
חדשות ומאמרים מעיתון "הארץ" בשנים 1990-91.
ערוץ 7
(Arutz 7)
חדשות ומאמרים מהאתר של "ערוץ 7" בשנים 2001-06.
דה מרקר
(TheMarker)
מאמרים מהעיתון הכלכלי "TheMarker", אוקטובר - מאי 2002.
הכנסת
(HaKnesset)
פרוטוקולי הדיונים של הכנסת, ינואר 2004 – נובמבר 2005.
ויקיפדיה 2013
(Wikipedia)
מאמרים מהאנציקלופדיה המקוונת "ויקיפדיה", שנת 2013.
דוקטורס
(Doctors)
מאמרים מאתר הרפואי "Doctors".
אינפומד
(Infomed)
שאלות ותשובות מאתר הרפואי "Infomed", ינואר 2006- ספטמבר 2007.
טבע הריפוי
(Nature of Healing)
מאמרים מאתר הרפואי "טבע וריפוי".
להיות בריא
(To Be Healthy)
מאמרים ודיוני פורום מהאתר הרפואי "להיות בריא".
פורומים תפוז אנשים
(Tapuz People Forums)
דיונים מפורום "אנשים" של תפוז. מגוון נושאים.
CHILDES בעברית
(Hebrew CHILDES)
שיחות בעברית מדוברת בין ילדים ובין ילדים למבוגרים.
עברית מדוברת בישראל
(Spoken Israeli Hebrew)
שיחות בעברית מדוברת וחלק של הקורפוס הישראלי לעברית מדוברת CoSIH.
עברית מנוקדת
(Hebrew Dotted Text)
מאמרים מהעיתונים "שער למתחיל" ו"ינשוף". הטקסטים מנוקדים חלקית.
קורפוס מנותח תלויות
(Dependency Parsed Corpus)
קורפוס מנותח תלויות.
הקורפוס הינו חלק מהאנציקלופדיה "ויקיפדיה" בעברית והתלויות נוצרו בעזרת מנתח התלויות האוטומטי של יואב גולדברג.
קורפוס וואלה אוכל
מאמרים מהאתר וואלה אוכל, 2014-2015.
קורפוס Foodpage מאמרים מהשנים 2014-2015 מהאתר Foodpage.co.il.
קורפוס וואלה ספורט
מאמרים מהאתר וואלה ספורט, 2014-2015.
קורפוס ספורט5 מאמרים מהאתר ספורט5, 2014-2015.
קורפוס האדם הלומד בעידן הטכנולוגי
מאמרי כנס "האדם הלומד בעידן הטכנולוגי".