Машина впервые превзошла людей в понимании изображений и ответов на текстовые вопросы после того, как модель AliceMind китайского гиганта электронной коммерции Alibaba Group Holding заняла первое место в глобальном конкурсе Visual Question Answering (VQA) Challenge 2021.
Об этом сообщил портал South China Morning Post.
Алгоритм Alibaba зафиксировал уровень точности 81,26% при ответах на вопросы, связанные с изображениями, по сравнению с уровнем точности 80,83% для людей в ежегодном конкурсе VQA Challenge, который проводится с 2015 года Конференцией по компьютерному зрению и распознаванию образов (CVPR).
В этом году задание содержало более 250 000 изображений и 1,1 миллиона вопросов. Оценка представляет собой изображение и связанный с этим вопрос, на который участников просят дать точный ответ. Компания из Ханчжоу сообщила, что результаты Alibaba, обновленные восемь дней назад, превзошли других мировых игроков, включая американского технологического гиганта Microsoft.
"Мы гордимся тем, что достигли еще одной важной вехи в области машинного интеллекта, что подчеркивает наши постоянные усилия по продвижению исследований и разработок в смежных областях искусственного интеллекта", - сказал Си Луо, руководитель отдела обработки естественного языка (NLP) в Alibaba DAMO Academy. "Это не означает, что однажды люди будут заменены роботами. Скорее, мы уверены, что более умные машины могут использоваться для помощи в нашей повседневной работе и жизни, и, следовательно, люди могут сосредоточиться на творческих задачах, в которых они лучше всего справляются", — добавил он.
Компьютерное зрение - одна из наиболее активных областей исследований и разработок ИИ в Китае, хотя ранний упор на приложения для наблюдения и влияние технологической войны между США и Китаем побудили к поиску новых драйверов коммерческого роста.
По словам Си, технология VQA может использоваться в самых разных областях, включая поиск продуктов на сайтах электронной коммерции, поддержку анализа медицинских изображений для первоначальной диагностики заболеваний, а также для умного вождения.
У Alibaba есть. уже использовала VQA в нескольких сценариях приложений, в том числе в своем интеллектуальном чат-боте Alime Shop Assistant, которым ежедневно пользуются десятки тысяч продавцов на розничных платформах Alibaba.
Ранее мы также сообщали, что Android 12 сможет управлять смартфоном с помощью мимики: экран откроют бровью.