Игорь Котенков

+191
с 2020
2 подписчика
25 подписок

Так, тогда такой вопрос:
1) берем попугая или нейронку
2) берем все примеры сложения N-значных чисел (пусть N будет 4, то есть числа 1000-9999)
3) берем и откладываем треть примеров
4) на 2/3 тренируем попуга и модель
5) каковы твои ожидания, на отложенной трети примеров, которые модель и попугай никогда не видели — какое будет качество? ближе к 0 или к 100%?
6) почему?

Что значит заучивается? Ты имеешь в виду что во время тренировки модель где-то в интернете увидела такой же пример решённый и запомнила?

Да, в го, так и было, полностью убрали человека из цикла — даже первая большая фаза тренировки происходила без подсматривания в реальные партии.

мой скрин сделан в апреле 23го, когда даже гпт4 турбо не было, не то что о1 (которую ты тестируешь)

https://t.me/seeallochnaya/299

((но и к o1 не подключены никакие инстурменты, включая калькулятор, апи калькулятора, вольфрама или чего бы то ни было еще)

не внешний апи = внутренности модели, сама модель, и ничего кроме этого

нет, не дали — при использовании он отдельно ставит значок, если использовался интернет, питон или другой инструмент.

Для слегка другой задачи подсчёта букв во фразе — разбивает на слова и считает по отдельности, потом суммирует

1

В большинстве случаев может, просто не в 100%.
у меня сейчас отработало 4 из 4 раз
(для статьи мне пришлось специально искать скрин по чатам)

Я думаю, что это разные уровни проблем. С цифрами есть логичное объяснение, которое можно засчитать за валидное — то есть существует такая интерпретация вопроса (даты), когда ответ 9.11 > 9.9 не звучит безумно.
С двумя буквами.r такого нет, там более однозначная постановка.

А ошибка сама да, может происходить и скорее всего происходит из-за токенизации, и что токены не хранят в себе инфу "я такой-то и состою из таких-то букв".

1