'Current LLMs introduce substantial errors when editing work documents': Microsoft scientists find most AI models struggle with long-running tasks — so maybe don't trust them completely just yet
12/05/2026-18:35 12/05/2026-18:40 מחשבים וטכנולוגיה TechRadar דיווח
The more interactions an AI model has, the less reliable it becomes, experts find, as even the best only scored 80.9% – and the worst scoring just 10.0%.
סיכום מאמרמדעני מיקרוסופט גילו כי מודלים של בינה מלאכותית מתקשים בביצוע משימות ארוכות טווח, וזאת כאשר הם מבצעים אינטראקציות מרובות. המחקר מצא כי ככל שמודל ה-AI מבצע יותר אינטראקציות, כך הוא הופך פחות אמין. אפילו המודלים הטובים ביותר קיבלו ציון של 80.9% בלבד, בעוד שהגרועים ביותר קיבלו ציון של 10.0% בלבד. הממצאים מדגישים כי מודלים של בינה מלאכותית, כולל מודלים גדולים (LLMs), עדיין מתקשים בעריכת מסמכי עבודה ומבצעים שגיאות רבות. תוצאות אלו מעידות כי יש להתייחס למודלים אלו בזהירות ולא לסמוך עליהם באופן מלא, במיוחד כאשר מדובר במשימות מורכבות וארוכות טווח. המחקר מדגיש את הצורך בפיתוח מודלים משופרים ויותר אמינים. נכון לעכשיו, יש להיזהר משימוש יתר במודלים אלו. הם עדיין לא בשלים לשימוש מלא.