
Міністерство економіки України разом із Державним архівом та іншими відомствами розпочало створення національного датасету україномовних рукописних матеріалів для навчання систем штучного інтелекту. Мета — навчити мовну модель розбирати старі рукописи, в тому числі — медичні довідки, передають Патріоти України.
Про деталі проєкту розповів ML Lead застосунку "Мрія" та радник зі штучного інтелекту в Мінекономіки Дмитро Войтех у подкасті AI&I.
Реалізація цієї ініціативи має пришвидшити цифровізацію державних послуг і сприяти оцифруванню архівних матеріалів.
Потреба у створенні такого датасету виникла під час роботи над проєктом "єДозвіл", який передбачає переведення процесу видачі ліцензій для підприємців у цифровий формат через "Дію". Для цього алгоритмам необхідно аналізувати документи, які подають заявники.
Зокрема, для отримання частини ліцензій потрібно завантажувати дипломи, видані ще у 1990-х роках, які часто заповнені від руки, мають низьку якість зображення або пошкодження. Як зазначив Войтех, наявні OCR-системи не забезпечують належного розпізнавання таких матеріалів українською мовою.
За словами розробників, у відкритому доступі відсутні якісні розмічені корпуси українського рукописного тексту, необхідні для навчання моделей. Тому Мінекономіки ініціювало співпрацю з іншими державними установами для швидкого формування відповідної бази.
Ключовим партнером став Державний архів України, який зацікавлений у використанні технології для оцифрування мільйонів сторінок історичних документів і спрощення доступу до інформації
Після завершення війни від 1 до 1,5 мільйона українців можуть виїхати за кордон на заробітки. Такий прогноз озвучив голова Офісу міграційної політики Василь Воскобойник, передають Патріоти України. Водночас він наголосив, що не вважає трудову міграці...
Нещодавно в Україні оновили правила бронювання від мобілізації через застосунок "Дія". Головна зміна – підприємства критичної інфраструктури тепер можуть тимчасово бронювати працівників навіть без уточнених військово-облікових даних. Працівників із не...