Gemini обучена с нуля быть мультимодальной - способной распознавать речь, видео и изображения. Она без плагинов работает с любыми материалами: картинки, видео, аудио, текст. По поведению она вроде как похожа на человека, так как за основу взяли огромные базы с транскрипциями ютуб-роликов.
Опять реклама телеги...
Комментарий недоступен
https://www.youtube.com/watch?v=wJlKl6JqK2E&ab_channel=Telekap