LINUX.ORG.RU
ФорумTalks

Да что ж не так с этим нейросетями?!

 бям, ,


0

1

Столкнулся с простой вроде бы задачей. У меня есть картинка с текстом, хотелось чтобы нейросетка написала возле каждого слова размер шрифта в пикселях. Они все отказываются. Несмотря на то что способны вынуть все слова и указать у каждого из них размер пикселях, но добавить ещё один слой с нужными обозначениями на картинку они не могут. Чем можно такое сделать автоматически?

ЗЫ. Нанобанана почти смогла.

★★★★★

Последнее исправление: ya-betmen (всего исправлений: 1)

попробуй в два промпта. первый распарсит, а вторым попроси поменять на изображении текст. типа вместо f"{line}" напиши f"{line} {linesize}"

прямо вот таким не занимался, но был был опыт работы промпт-инженером менять часть изображения, например всунуть другое изображение в монитор, поменять фон, итд итп. ии с этим ок.

flant ★★★★
()

Вам надо указать не «у каждого из них», а «вместо» и это будет вашим вторым слоем. Уж поверх его положить я думаю вы и сами сможете.

unDEFER ★★★★★
()
Ответ на: комментарий от unDEFER

Если бы у меня была возможность сесть и чего-то там наложить то мне бы не понадобились услуги бям. Я то хотел по быстрому ей задачу зарядить.

ya-betmen ★★★★★
() автор топика

гопота такое делала месяц назад (делал обложки для аудиокниг), грок тоже должен уметь, остальные тупые или с комплексами

сделать автоматически

нанять промт-инженера

Lordwind ★★★★★
()
Последнее исправление: Lordwind (всего исправлений: 1)

Какими моделями пользовался?

Мультимодальные модели хорошо понимают изображения, это в них встроено нативно.

А вот генерация - это отдельный пайплайн.

Поэтому тут есть зазор, мешающий от понимания задачи на уровне языковой модели, перейти к генерации.

Сейчас наиболее полно это реализовано в nano banana pro, или как там она называется.

Остальные ещё больше отстают.

Но даже банана не смогла изобразить трехмерную диаграмму по моему описанию. Пришлось руками рисовать.

wandrien ★★★★
()
Последнее исправление: wandrien (всего исправлений: 2)

чтобы нейросетка написала возле каждого слова размер шрифта в пикселях

Для этого модель должна уметь работать с изображением агентно. Локализовать фрагмент, рассмотреть отдельно, найти характерные границы, как-то их измерить.

Это нетривиально вообще.

Базово модель видит картинку «как целое», «интуитивно».

wandrien ★★★★
()
Ответ на: комментарий от wandrien

nano banana pro

Спасибо. Оказалось что если её руками включить в гемини, то оно осилило. Ну как осилило, врет про размеры для некоторых надписей. Игнорит пожелания к толщине линий. Т.е всё равно руками придется.

ya-betmen ★★★★★
() автор топика
Ответ на: комментарий от ya-betmen

Ну значит эта - может.

Зрение может разными вариантами быть реализовано.

wandrien ★★★★
()

врет про размеры для некоторых надписей. Игнорит пожелания к толщине линий.

Озадач ИИ искать не размер, а кегль шрифта, ибо формализация толщины существенно зависит от типа шрифта.

Чем можно такое сделать автоматически?

Самодельно можно генерировать тестовые слова со шрифтами разного размера (кегля) и найти максимум корреляции «скелетов» © (wikipedia.org) с каждым определяемым словом.

quickquest ★★★★★
()
Последнее исправление: quickquest (всего исправлений: 1)

ЗЫ. Нанобанана почти смогла.

Гугол, ты - лудший!

tiinn ★★★★★
()

Ты ведешь себя с БЯМ так, будто это алгоритмические ИИ.

Это разные типы ИИ, и у БЯМ куча ограничений, что вот в таких нестандартных задачах прям видны.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от ya-betmen

Оказалось что если её руками включить в гемини, то оно осилило.

Да. Промпт был типа «Вкусно и точка», подсвети в неоновой вывеске первые и последние 4 буквы. Сперва не справилось, а потом я Pro подключил, - и вуаля!

tiinn ★★★★★
()
Ответ на: комментарий от Lordwind

гопота такое делала месяц назад (делал обложки для аудиокниг), грок тоже должен уметь,

Постоянно с русским языком у них проблемы, как ты надпись умудрялся без ошибок сделать.

One ★★★★★
()
Ответ на: комментарий от Vsevolod-linuxoid

Я веду себя так как будто её сотни индусов(африканцев) обучили под плюс-минус стандартные бытовые задачи.

ya-betmen ★★★★★
() автор топика
Ответ на: комментарий от ya-betmen

Твоя задача нестандартна. Ты ждешь от БЯМ понимания задачи, словно это человек или алгоритмический ИИ. А она – лишь очень крупный алгоритм, выстраивающий слова по аналогии с существующими данными в модели.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от Vsevolod-linuxoid

Твоя задача нестандартна

Да в каком месте нестандартна то? Думаешь никому не пришло в голову например подписать каждый предмет на фото?

ya-betmen ★★★★★
() автор топика
Ответ на: комментарий от One

Писать надо в стиле английского языка, без сложных оборотов.

Lordwind ★★★★★
()
Ответ на: комментарий от ya-betmen

Именно то распознать, что ты потребовал – вероятно нет.

Когда ты показываешь БЯМ фото кота, она не анализирует, что на фото, а просто сравнивает кучу пикселей с кучей шаблонов, находит похожие и говорит, что на фото – кот.

Можешь потренировать БЯМ на куче фото с буквами в разных шрифтах и кеглях, чтобы научить её отличать букву a в 12 Times New Roman от b в 14 Consolas, например.

Тогда начнет отвечать на твой вопрос адекватно.

Это ж не аналитический ИИ, она не анализирует картинку, просто сравнивает с заученными паттернами. Если её не обучали ранее отличать на картинках, где какого размера шрифта буквы, она и сможет.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от ya-betmen

И если бы ты просил у развитого аналитического ИИ, он бы ответил.

А ты спросил у БЯМ. Она не умеет «думать», она не может понять смысл того, что ты попросил.

Она просто взяла твой запрос, что для нее набор данных, и не попыталась проанализировать, что ты запросил – а выдала ответ, что на картинке, по заученным паттернам.

Так как ранее её не учили обрабатывать паттерны «сообщи размер в пикселях объекта на картинке» – она и не ответила нормально.

Замечу, что даже если бы её такому все-таки обучали, БЯМ все равно могла бы соврать. Потому что это аналитический ИИ или человек «прикладывает линеку» и сообщает размер, БЯМ же просто угадывает ответ по схожим случаям.

БЯМ создает иллюзию, что там что-то «думает», потому что паттернов реально много. Попроси написать стихи про воробья в небе, например – паттерны со 100500 стихов у неё точно есть. Но находишь «слепое пятно» – и иллюзия рушится.

Vsevolod-linuxoid ★★★★★
()
Последнее исправление: Vsevolod-linuxoid (всего исправлений: 1)
Ответ на: комментарий от One

О, после коммента встретил новость, что chatgpt обновил генератор и текст уже нормальный

One ★★★★★
()

а я вот всё жду когда нейросети научатся по mp3 партитуры писать. Раньше этим занимались энтузиасты, а сейчас с этим как-то глухо :(

ofp
()
Ответ на: комментарий от ofp

А обычный анализ спектров этого не может?

ya-betmen ★★★★★
() автор топика
Ответ на: комментарий от ofp

Звукоанализ можно делать детерминированными алгоритмами безо всяких ИИ и давно, и лучше.

firkax ★★★★★
()
Ответ на: комментарий от ofp

а я вот всё жду когда нейросети научатся по mp3 партитуры писать.

Сравнение конвертеров аудио в ноты 2026 с помощью транскрипции на основе ИИ © (screenapp.io).

quickquest ★★★★★
()
Ответ на: комментарий от ofp

ya-betmen А оно сможет отличить гитару от клавесина?

firkax А это как? а то я не образованный.

quickquest А оно рабочее? есть примеры? А то он деньгу просит.

ofp
()
Последнее исправление: ofp (всего исправлений: 1)
Ответ на: комментарий от ya-betmen

Да в каком месте нестандартна то? Думаешь никому не пришло в голову например подписать каждый предмет на фото?

ИИ генерация картинок очень плохо умеет делать надписи (не распознавать). Только недавно научились, сегодня презентовали ChatGPT images 2, хвастались, что там это есть. Может быть если ты попросишь у агента наложить надписи с помощью imagemagick, результат будет лучше.

goingUp ★★★★★
()
Ответ на: комментарий от ofp

А оно рабочее? есть примеры? А то он деньгу просит.

Сам попробуй, там на начальном экране уверяют, что бесплатно, но с регистрацией.

quickquest ★★★★★
()
Ответ на: комментарий от ofp

А оно сможет отличить гитару от клавесина?

Ну звук у них разный так что наверное да.

ya-betmen ★★★★★
() автор топика
Последнее исправление: ya-betmen (всего исправлений: 1)

А paintbrush у тебя нет что ли? Открываешь картинку, увеличиваешь, пока не станут видны отдельные пикселЯ, смотришь по координатам внизу окна размер…

seiken ★★★★★
()

Обратите внимание на изображение

https://qu.ax/J7v9R

Это ваши хваленые нейросети? Искусственный интеллект? Любому русскому человеку понятен контекст этой фразу, но нейродурачек пытается навязать тебе что-то другое. Отвратительно.

MoldAndLimeHoney ★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)