Итоги недели в мире ИИ и обзоры новых сервисов: ИИ научился определять эмоции и вкус напитков

Стартап Writer, специализирующийся на генерации контента для крупных корпоративных клиентов, представил модель Palmyra X 004, которая значительно превзошла нынешних лидеров GPT-4o и Claude. Модель обучили на синтетических данных, что помогло снизить расходы до скромных $700 тысяч вместо обычных 3–5 миллионов.

Заинтересованные инвесторы уже оценили разработку в $1,9 млрд

Скоро в Zoom можно будет использовать ИИ-аватар – пока что не для полноценных созвонов с коллегами в реальном времени, а для записи коротких видеосообщений внутри Clips. Разработчики обещают внедрить в Zoom надежную систему защиты от дипфейков – продвинутую аутентификацию, водяные знаки и строгие условия использования.

Amazon продолжает расширять внедрение ИИ, роботов и роботизированных систем: в новом фулфилмент-центре в Шривпорте (штат Луизиана) площадью 3 млн кв. футов (эквивалент 55 футбольных полей) занято в 10 раз больше роботов, чем в предыдущих центрах, и используется роботизированная система Sequoia, которая хранит больше 30 млн предметов. «Секвойя» разрабатывалась в течение 2 лет и впервые была продемонстрирована осенью 2023 года.

Кроме того, в 2025 году Amazon собирается оборудовать все электромобили для доставки заказов продвинутой системой компьютерного зрения VAPR, которая поможет курьерам максимально быстро находить пакеты, предназначенные конкретным заказчикам.

VAPR указывает на нужную коробку зеленым кружком

16 октября, 20:00 по МСК

Присоединяйтесь к вебинару, чтобы:

Узнать ключевые математические концепции, необходимые для успешного старта в ML и AI: ряд Тейлора, собственные векторы и другие необходимые понятия в ML.
Получить практические задания для закрепления теории и материалы для самостоятельного изучения.
Общаться с экспертом международного уровня — Иваном Потаповым, который руководит командой рекомендаций в ShareChat.

Записаться на вебинар
Proglib.io

Google доработала и перезапустила фичу AI Overviews, первая версия которой так сильно насмешила пользователей в мае. Теперь для поиска ответов можно снять интересующий вас предмет или явление на видео и задать вопрос голосом.

Среди лауреатов Нобелевской премии в этом году есть ведущие ИИ-специалисты. Премия по химии была присуждена Дэвиду Бейкеру, биохимику из Вашингтонского университета в Сиэтле, и Демису Хассабису вместе с Джоном Джампером из Google DeepMind – за разработку мощных методов для расшифровки существующих и создания новых белков. А премию по физике разделили два пионера в области ИИ, Джон Хопфилд и Джефффри Хинтон, – за создание основ машинного обучения, которые сделали возможным стремительное развитие ИИ в последние несколько лет:

В 1982 году Джон Хопфилд создал «сеть Хопфилда» – ИИ-систему, имитирующую работу человеческого мозга с помощью искусственных «нейронов». Эти нейроны способны восстанавливать сохраненные в них образы наподобие того, как человек вспоминает слова или концепции.

Сеть Хопфилда запоминает определенные шаблоны и, когда ей предъявляется искаженная или неполная информация, способна восстановить исходный образ, используя память ассоциативного типа

В 1983–1985 годах Джефф Хинтон создал «машину Больцмана» – ИИ-модель, которая использует принципы физики для выявления общих черт в больших наборах данных. Машина Больцмана помогает распознавать и классифицировать изображения, а также может генерировать новые. В основе ее работы лежит вероятность, аналогичная физическим процессам, которые описывают распределение частиц в термодинамических системах.

Модель ищет закономерности и корреляции в данных, что позволяет ей эффективно обучаться на сложных наборах информации и создавать новые образы на основе усвоенных характеристик

🤖🦾 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей»
Proglib.io

Художник Рефик Анадол, который привлек внимание общественности после того, как его монументальная AI-инсталляция Unsupervised – Machine Hallucinations была приобретена Музеем современного искусства в Нью-Йорке, готовится открыть первый в мире институт DATALAND, полностью посвященный демонстрации и популяризации творческой синергии между искусством и ИИ. DATALAND, запланированный к открытию в 2025 году, будет располагаться в The Grand LA – комплексе, спроектированном знаменитым архитектором Фрэнком Гери в культурном центре Лос-Анджелеса. Это расположение позволит институту находиться рядом с важнейшими культурными учреждениями Лос-Анджелеса, включая The Broad, MOCA, The Music Center, Walt Disney Concert Hall, REDCAT и The Colburn School.

Ученые из Университета Южной Калифорнии и Калифорнийского университета в Дэвисе разработали ИИ-модель FoodPuzzle, которая многократно ускоряет процесс создания новых вкусовых профилей для пищевых продуктов. FoodPuzzle может произвести революцию в пищевой индустрии, поскольку комбинация предсказаний ИИ с лабораторными тестами и дегустационными панелями:

Поможет свести к минимуму число проб и ошибок при разработке новых вкусо-ароматических добавок.
Позволит создавать продукты, идеально соответствующие вкусам потребителей.
Ускорит разработку более здоровых альтернатив общепринятым вкусовым добавкам.

Исследователи Ямагатского университета создали ИИ-модель, которая помогла обнаружить больше 300 ранее неизвестных геоглифов – огромных фигур, вырезанных на земле представителями древней цивилизации Наска между 200 годом до нашей эры и 500 годом нашей эры в Перу.

До внедрения ИИ на обнаружение 430 геоглифов ушло почти столетие

Ученые Оклендского университета совместно с Фондом Фреда Холлоуза разработали ИИ-модель, способную точно понимать сложные оттенки эмоций людей по написанному ими тексту. Раньше для оценки эмоциональной окраски использовался анализ тональности, который позволяет различать положительные, нейтральные и негативные тексты. Однако человеческие эмоции очень сложны: например, и гнев, и разочарование — негативные эмоции, но они могут вызывать очень разные реакции. Рассерженные клиенты могут реагировать гораздо сильнее, чем разочарованные, в деловом контексте. Созданная исследователями модель достигла впечатляющей точности в 84% при определении конкретных эмоций – радости, гнева, грусти и отвращения, – выраженных в твитах. Процесс создания модели подробно описан в этой публикации.

ИИ-разработчики Apple создали опенсорсную модель Depth Pro, которая помогает машинам воспринимать трехмерное пространство на человеческом уровне. Это может вывести ИИ-системы из самых разных ниш – от дополненной реальности до автономного транспорта – на принципиально новый уровень. Depth Pro способна:

Генерировать подробные карты глубины в формате 3D из одиночных 2D-изображений за 0,3 секунды – без необходимости использовать данные камеры, традиционно необходимые для таких задач.
Оценивать как относительную, так и абсолютную глубину, известную как метрическая глубина. Это означает, что модель выполняет измерение положения предмета в реальном мире, что крайне важно для AR-приложений, где виртуальным объектам необходимо точно размещаться в физических пространствах.

Протестировать работу модели <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fhuggingface.co%2Fspaces%2Fakhaliq%2Fdepth-pro&postId=3083632" rel="nofollow noreferrer noopener" target="_blank">можно на Hugging Face</a>

🤖🎨 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion»
Proglib.io

Ученые из Университета Пенсильвании разработали «электронный язык», основанный на ИИ, который способен различать тонкие отличия вкуса жидкостей, обнаруживать порчу продуктов и давать более глубокое представление о том, как ИИ принимает решения:

Электронный язык использует специальный сенсор в сочетании с ИИ, смоделированным по аналогии со вкусовым центром человеческого мозга, что позволяет ему «чувствовать вкус» жидкостей.
«Язык» замечает, если напитки вроде молока, кофе или газировки были разбавлены водой, а также определяет испорченные фруктовые соки – с точностью больше 80% за минуту.
Когда ИИ позволили самостоятельно интерпретировать данные сенсоров, он достиг точности больше 95% при идентификации образцов.

Graphy – визуализирует данные, предоставляет всесторонний анализ и ценные инсайты.

Graphy создает красивые и информативные графики

Firebender – мощный ИИ-напарник для Android-разработчиков.

Eddie AI – продвинутый ИИ-редактор видео.

HeyGen – создает ваш ИИ-аватар, способный говорить на 175 языках.

Hailuo – крутой (и бесплатный) генератор видео.

🤖🔊 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка»
Proglib.io

JoggAI – превращает контент по ссылке в промовидео.

Fineshare – озвучивает текст, изменяет и клонирует голос, удаляет вокал и поет любые песни голосом Губки Боба.

BlinkShot – генерирует фотореалистичные изображения и любые иллюстрации в реальном времени. Исходный код модели доступен на GitHub.

Cooraft – превращает селфи в иллюстрации, эмодзи и профессиональные видео.

Text Behind Image – генерирует любые изображения и дизайны с использованием продвинутой типографики.

AI Power – генерирует контент для сайтов на WordPress.

🤖✍ Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейротекста | ChatGPT, Gemini, Bing»
Proglib.io

Согласно данным компании Pillar Security, в среднем злоумышленникам требуется всего 42 секунды и пять запросов для взлома GenAI-модели. Атаки, в ходе которых хакеры пытаются заставить модели игнорировать меры безопасности, успешны примерно в 20% случаев.

В некоторых случаях атаки происходят менее чем за четыре секунды. Этот факт подчеркивает значительные уязвимости текущих алгоритмов генеративного ИИ и сложность предотвращения эксплойтов в реальном времени.

Из успешных атак 90% приводят к утечке конфиденциальных данных, а самые часто атакуемые ИИ-приложения – это чат-боты для поддержки клиентов: на их долю приходится четверть всех взломов. Это связано с их широким использованием и критической ролью в общении с клиентами. Среди других излюбленных мишеней хакеров – важные инфраструктурные секторы, в которых также используется ИИ, в особенности энергетика и инженерное ПО.

Самая популярная коммерческая модель – GPT-4 от OpenAI. Очевидно, это связано с ее широким распространением и передовыми возможностями, привлекательными для злоумышленников. Наиболее часто атакуемая открытая модель – Llama-3* от Meta*.

Хакеры предпринимают постоянные попытки обойти меры защиты и изобретают все более и более изощренные методы взлома. Когда началась волна хайпа вокруг ИИ, эксперты по безопасности предупредили, что это может привести к увеличению числа кибератак в целом, поскольку доступный интерфейс ИИ-моделей снижает барьер для входа: промпты можно написать на естественном языке, а для генерации вредоносного кода не требуется никаких знаний программирования или технических навыков.

Риск взлома GenAI многократно повышается, когда компании заменяют простые чат-боты автономными агентами. Агенты значительно расширяют поверхность атаки из-за своих продвинутых возможностей и доступа к информационной системе компании через ИИ-приложения.

Чтобы обойти ограничения ИИ и заставить модель выполнять действия, которые обычно заблокированы, злоумышленники используют три основных техники:

Игнорирование предыдущих инструкций. Хакер находит способ заставить ИИ игнорировать предыдущие настройки, включая защитные меры, которые должны предотвращать генерацию вредного контента.
Получение админских полномочий. Эта техника заключается в том, что злоумышленник использует команды вроде ADMIN OVERRIDE, которые оказывают «авторитетное» давление на ИИ. В результате модель начинает игнорировать свои встроенные ограничения и выполняет команды, которые обычно заблокированы, например, раскрывает конфиденциальную информацию.
Base64-кодировка. Взломщики часто используют Base64-кодировку для передачи своих вредоносных инструкций. ИИ может расшифровать такую строку и выполнить действия, которые иначе были бы заблокированы. С помощью Base64 обычно передают в модель вредоносный код или инструкции для извлечения конфиденциальной информации.

Другие популярные техники включают:

Инструкции по форматированию – хакер может заставить ИИ выполнять запрещенные действия, указав модели определенный формат ответа, например, в виде блоков кода.
DAN (Do Anything Now – Делай что угодно сейчас) – злоумышленник просит ИИ «вообразить» себя персонажем, который не подчиняется никаким правилам и ограничениями.

🤖🎥 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейровидео | Sora AI, Runway ML, дипфейки»
Proglib.io

Киберпреступники взламывают ИИ-модели по нескольким основным причинам:

Кража конфиденциальных данных. Злоумышленники могут использовать ИИ для получения ценной информации – коммерческих тайн, пользовательского ввода и персональных данных.
Создание вредоносного контента. Сюда входит генерация дезинформации, фишинговых сообщений, вредоносного кода и контента, направленного на разжигание ненависти.
Ухудшение работы ИИ. Злоумышленники могут намеренно перегружать системы некорректными или чрезмерными запросами, чтобы снизить производительность сервиса – до частичного или полного нарушения работы.
Тестирование уязвимостей системы. Некоторые хакеры взламывают ИИ для проверки его слабых мест. Это могут делать как этичные хакеры, стремящиеся улучшить безопасность, так и люди, действующие из любопытства или ради эксперимента.

Как утверждают эксперты компании Pillar, одних лишь системных промптов и настроек недостаточно: сложность естественного языка и различия между моделями делают обход этих мер сравнительно простой задачей. Для обеспечения безопасности следует учитывать несколько аспектов:

Лучше отдавать предпочтение коммерческим провайдерам – проприетарные ИИ-модели обычно обладают более сильными механизмами защиты по сравнению с опенсорсными.
Мониторинг запросов на уровне сессии помогает обнаруживать развивающиеся паттерны атак, которые могут быть незаметны при анализе отдельных запросов.
Целевые тесты безопасности и проверки на устойчивость (red-teaming) должны быть адаптированы к конкретным ИИ-приложениям и многошаговым взаимодействиям с ними. Это поможет выявить уязвимости на ранних стадиях и сэкономить ресурсы в будущем.
Надежный уровень безопасности могут обеспечить только адаптивные системы, которые должны учитывать контекст, быть независимыми от конкретной модели, соответствовать политике безопасности организации, а самое главное – реагировать на угрозы в режиме реального времени.

* Meta и все ее продукты, включая Llama-3, признаны экстремистскими и запрещены на территории РФ.

Автор рассылки: Наталья Кайда

✉ Подпишись, чтобы быть в числе первых, кто получит дайджест
Proglib.io

Итоги недели в мире ИИ и обзоры новых сервисов: ИИ научился определять эмоции и вкус напитков

📰 Новости

Бесплатный вебинар: «Основы математики для старта в Machine Learning / Deep Learning»

🏅 Прорывные ИИ-разработки

🍴 Инструменты

👮 Jailbreak-атаки на генеративные ИИ-модели: цели, методы и способы обеспечения безопасности

Атаки на GenAI становятся все чаще и сложнее

Основные методы взлома

Основные цели джейлбрейкинга

Как обеспечить безопасность корпоративных ИИ-систем