Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

Читать далее

Дата
18 ноября 2025
Источник
https://habrahabr.ru/