ChatGPT + компьютерное зрение⁠⁠

В этой статье мы рассмотрим реализацию и примеры работы ChatGPT с компьютерным зрением.

ChatGPT + компьютерное зрение⁠⁠

Я занимаюсь разработкой своего ChatGPT-4 Telegram бота на Python. Мне пришла идея использовать компьютерное зрение для поиска текста на изображение, для составления запроса в ChatGPT.

Реализация

Tesseract — это популярный движок OCR с открытым исходным кодом, который был предварительно обучен для поддержки более 100 языков. В этой статье мы используем Python-tesseract (pytesseract), оболочку Python для Tesseract, которая позволяет использовать Tesseract с Python.

Прежде чем использовать Tesseract, его нужно установить. Не забудьте добавить русский язык в параметрах установки.

ChatGPT + компьютерное зрение⁠⁠

pip install pytesseract

ChatGPT + компьютерное зрение⁠⁠

Примеры

Все примеры будут показаны в моем Telegram боте, так как это удобнее, чем через консоль, ну и ради продвижения, конечно же...

Бот бесплатный. Имеет большой функционал. Всю информацию найдете внутри.

Telegram бот может обрабатывать фотографию в двух режимах:

  • Получение текста с изображения без запроса в ChatGPT. Для этого нужно написать команду /text в подписи к изображению или оставить это поле пустым.
  • Обработка текста с использованием инструкции для ChatGPT. Инструкция (запрос) пишется в подписи к изображению.

Попробуем распознать текст с этой фотографии документа, сделанной на телефон.

ChatGPT + компьютерное зрение⁠⁠
ChatGPT + компьютерное зрение⁠⁠

Есть неточности, но в целом не плохо

Попробуем решить тестовое задание с применением ChatGPT.

ChatGPT + компьютерное зрение⁠⁠
ChatGPT + компьютерное зрение⁠⁠

Обработка теста с изображения

ChatGPT + компьютерное зрение⁠⁠
ChatGPT + компьютерное зрение⁠⁠

Как по мне, вполне себе применимая штука получилась. Может пригодится. Все примеры вы можете опробовать сами, воспользовавшись Telegram ботом.

ChatGPT + компьютерное зрение⁠⁠
33
6 комментариев

В целом идея неплохая, но как мне кажется стоило бы добавить больше инфы по CV, а не просто установили и сразу в прод

1

Выглядит годно, правда мой опыт с OCR года эдак полтора назад был довольно разочаровывающим.

Тебе же успехов в развитии проекта.

Спасибо большое приятно!)

Вообще тут большое значение, конечно, играет качество исходного документа. В большинстве случаев люди хотят распознать то, что у самих плохо получается читать (размыто, плохое освещение, пиксельно) и ожидаемо получают от OCR-системы текст вида "АААААааааааАаааааААА"

перевели его слова в чуханы

но ведь не его слова, а его самого

возможно ИИ плохо знаком с тюремной терминологией