При работающем алгоритме наушники постоянно передают звук с микрофона на компьютер для обработки. На первом этапе со звуком работает трехслойная полносвязная нейросеть, которая анализирует 180-миллисекундные отрезки звука и определяет, есть ли на них какой-либо жест. Если жест не обнаружен, этот отрезок отсекается, а если обнаружен, то он передается на другой алгоритм. Перед вторым этапом звук преобразуется в мел-спектрограмму, а затем передается сверточной нейросети DenseNet, предварительно обученной на датасете ImageNet, а затем дообученной на датасете авторов. Эта нейросеть работает в качестве классификатора, который выдает итоговый результат — тип совершенного пользователем жеста.