Результати дослідження шокували! ШІ тупішає... від спілкування з людьми

четвер, 26 лютий 2026, 8:39

Спільне дослідження Microsoft Research і Salesforce проаналізувало понад 200 тисяч діалогів із сучасними AI-моделями та виявило: у тривалих розмовах їхня надійність різко падає. Попри високі результати в одноразових запитах, багатокрокове спілкування часто призводить до помилок і галюцинацій, передають Патріоти України.

Дослідники з Microsoft Research разом із Salesforce проаналізували понад 200 тисяч діалогів із провідними великими мовними моделями. Серед них – GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Про це пише Windows central.

Результати показали: моделі демонструють близько 90% успішності при виконанні завдань за одним запитом. Проте у форматі природної багатокрокової розмови цей показник падає приблизно до 65%.

Водночас дослідники наголошують: це не означає, що модель буквально стає дурнішою. Загальне зниження когнітивної здатності оцінили приблизно у 15%. Однак рівень ненадійності зріс на 112%. Іншими словами, відповіді частіше ставали нестабільними або містили помилки.

Як пише XDA, однією з причин називають так зване передчасне генерування. Модель починає формувати відповідь ще до того, як користувач повністю виклав контекст або уточнив деталі. Це призводить до того, що подальший діалог будується на неточній основі.

Ще одна проблема – закріплення первинної помилки. Якщо перша відповідь містила неточність, модель часто використовує її як базу для наступних тверджень, навіть коли вона хибна.

Дослідники також зафіксували явище "роздування відповіді". У багатокрокових діалогах обсяг тексту зростав на 20%–300% порівняно з одноразовими запитами. Довші відповіді містили більше припущень і галюцинацій, які згодом сприймалися як частина контексту розмови.

Навіть моделі з додатковими "thinking tokens", як-от o3 чи DeepSeek R1, не змогли повністю уникнути цієї проблеми. У ширшому контексті дослідження підкреслює: попри швидке впровадження генеративного AI та зміну звичок користувачів, зокрема перехід від класичного пошуку до AI-інструментів, надійність таких систем залишається вразливою, особливо коли у діалозі з’являється багато змінних.

Нині мало хто знає: Кого в СРСР називали "мочалками"

вівторок, 21 липень 2026, 22:45

Молодіжний сленг радянської епохи завжди був яскравим дзеркалом тогочасних культурних процесів, попри жорсткі межі офіційної ідеології. У різні десятиліття в Радянському Союзі виникали специфічні слова, які допомагали тогочасній молоді виділятися або м...

У Китаї створили робота-кентавра, пристосованого для гасіння пожеж (відео)

вівторок, 21 липень 2026, 22:12

У Китаї представили першого у світі робота, схожого на кентавра. Цей гібридний робот від компанії Run Robotics поєднує колеса та ноги, щоб краще долати перешкоди та швидше пересуватися навіть по складному рельєфу. Як пише Interesting Engineering, робот...

Останні

По теме

Результати дослідження шокували! ШІ тупішає... від спілкування з людьми

Нині мало хто знає: Кого в СРСР називали "мочалками"

У Китаї створили робота-кентавра, пристосованого для гасіння пожеж (відео)

Патріоти в FaceBook