Да что ж не так с этим нейросетями?!

0

1

Столкнулся с простой вроде бы задачей. У меня есть картинка с текстом, хотелось чтобы нейросетка написала возле каждого слова размер шрифта в пикселях. Они все отказываются. Несмотря на то что способны вынуть все слова и указать у каждого из них размер пикселях, но добавить ещё один слой с нужными обозначениями на картинку они не могут. Чем можно такое сделать автоматически?

ЗЫ. Нанобанана почти смогла.

Ссылка

← А вы уважаете права копирайтеров?

Не знаю, вендекапец ли это, но →

попробуй в два промпта. первый распарсит, а вторым попроси поменять на изображении текст. типа вместо f"{line}" напиши f"{line} {linesize}"

прямо вот таким не занимался, но был был опыт ~~работы промпт-инженером~~ менять часть изображения, например всунуть другое изображение в монитор, поменять фон, итд итп. ии с этим ок.

flant ★★★★
(22.04.26 13:21:16 MSK)

Ссылка

Вам надо указать не «у каждого из них», а «вместо» и это будет вашим вторым слоем. Уж поверх его положить я думаю вы и сами сможете.

unDEFER ★★★★★
(22.04.26 13:23:56 MSK)

Ответ на: комментарий от unDEFER 22.04.26 13:23:56 MSK

Если бы у меня была возможность сесть и чего-то там наложить то мне бы не понадобились услуги бям. Я то хотел по быстрому ей задачу зарядить.

ya-betmen ★★★★★
(22.04.26 13:41:09 MSK) автор топика

Ответ на: комментарий от ya-betmen 22.04.26 13:41:09 MSK

Я то хотел по быстрому ей задачу зарядить

Лентяй

Chord ★★★★★
(22.04.26 13:45:06 MSK)
Последнее исправление: Chord 22.04.26 13:45:27 MSK (всего исправлений: 1)

гопота такое делала месяц назад (делал обложки для аудиокниг), грок тоже должен уметь, остальные тупые или с комплексами

сделать автоматически

нанять промт-инженера

Lordwind ★★★★★
(22.04.26 13:45:51 MSK)
Последнее исправление: Lordwind 22.04.26 13:46:29 MSK (всего исправлений: 1)

Какими моделями пользовался?

Мультимодальные модели хорошо понимают изображения, это в них встроено нативно.

А вот генерация - это отдельный пайплайн.

Поэтому тут есть зазор, мешающий от понимания задачи на уровне языковой модели, перейти к генерации.

Сейчас наиболее полно это реализовано в nano banana pro, или как там она называется.

Остальные ещё больше отстают.

Но даже банана не смогла изобразить трехмерную диаграмму по моему описанию. Пришлось руками рисовать.

wandrien ★★★★
(22.04.26 13:46:13 MSK)
Последнее исправление: wandrien 22.04.26 13:46:52 MSK (всего исправлений: 2)

Ответ на: комментарий от Chord 22.04.26 13:45:06 MSK

Вкалывают роботы. Всё норм.

ya-betmen ★★★★★
(22.04.26 13:46:56 MSK) автор топика

Ссылка

чтобы нейросетка написала возле каждого слова размер шрифта в пикселях

Для этого модель должна уметь работать с изображением агентно. Локализовать фрагмент, рассмотреть отдельно, найти характерные границы, как-то их измерить.

Это нетривиально вообще.

Базово модель видит картинку «как целое», «интуитивно».

wandrien ★★★★
(22.04.26 13:49:52 MSK)

Ответ на: комментарий от wandrien 22.04.26 13:46:13 MSK

nano banana pro

Спасибо. Оказалось что если её руками включить в гемини, то оно осилило. Ну как осилило, врет про размеры для некоторых надписей. Игнорит пожелания к толщине линий. Т.е всё равно руками придется.

ya-betmen ★★★★★
(22.04.26 13:57:58 MSK) автор топика

Ответ на: комментарий от wandrien 22.04.26 13:49:52 MSK

Оно мне выписало слова и размеры в таблицу. Всё оно может.

ya-betmen ★★★★★
(22.04.26 13:59:42 MSK) автор топика

Ответ на: комментарий от ya-betmen 22.04.26 13:59:42 MSK

Ну значит эта - может.

Зрение может разными вариантами быть реализовано.

wandrien ★★★★
(22.04.26 14:13:14 MSK)

Ссылка

врет про размеры для некоторых надписей. Игнорит пожелания к толщине линий.

Озадач ИИ искать не размер, а кегль шрифта, ибо формализация толщины существенно зависит от типа шрифта.

Чем можно такое сделать автоматически?

Самодельно можно генерировать тестовые слова со шрифтами разного размера (кегля) и найти максимум корреляции «скелетов» © (wikipedia.org) с каждым определяемым словом.

quickquest ★★★★★
(22.04.26 15:44:21 MSK)
Последнее исправление: quickquest 22.04.26 15:45:59 MSK (всего исправлений: 1)

Ссылка

ЗЫ. Нанобанана почти смогла.

Гугол, ты - лудший!

tiinn ★★★★★
(22.04.26 15:56:11 MSK)

Ссылка

Ты ведешь себя с БЯМ так, будто это алгоритмические ИИ.

Это разные типы ИИ, и у БЯМ куча ограничений, что вот в таких нестандартных задачах прям видны.

Vsevolod-linuxoid ★★★★★
(22.04.26 15:58:00 MSK)

Ответ на: комментарий от ya-betmen 22.04.26 13:57:58 MSK

Оказалось что если её руками включить в гемини, то оно осилило.

Да. Промпт был типа «Вкусно и точка», подсвети в неоновой вывеске первые и последние 4 буквы. Сперва не справилось, а потом я Pro подключил, - и вуаля!

tiinn ★★★★★
(22.04.26 15:58:27 MSK)

Ссылка

Ответ на: комментарий от Lordwind 22.04.26 13:45:51 MSK

гопота такое делала месяц назад (делал обложки для аудиокниг), грок тоже должен уметь,

Постоянно с русским языком у них проблемы, как ты надпись умудрялся без ошибок сделать.

~~One~~ ★★★★★
(22.04.26 16:54:44 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 22.04.26 15:58:00 MSK

Я веду себя так как будто её сотни индусов(африканцев) обучили под плюс-минус стандартные бытовые задачи.

ya-betmen ★★★★★
(22.04.26 17:07:40 MSK) автор топика

Ответ на: комментарий от ya-betmen 22.04.26 17:07:40 MSK

Твоя задача нестандартна. Ты ждешь от БЯМ понимания задачи, словно это человек или алгоритмический ИИ. А она – лишь очень крупный алгоритм, выстраивающий слова по аналогии с существующими данными в модели.

Vsevolod-linuxoid ★★★★★
(22.04.26 17:09:56 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 22.04.26 17:09:56 MSK

Твоя задача нестандартна

Да в каком месте нестандартна то? Думаешь никому не пришло в голову например подписать каждый предмет на фото?

ya-betmen ★★★★★
(22.04.26 17:27:15 MSK) автор топика

Ответ на: комментарий от One 22.04.26 16:54:44 MSK

Писать надо в стиле английского языка, без сложных оборотов.

Lordwind ★★★★★
(22.04.26 17:58:16 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 22.04.26 17:27:15 MSK

Именно то распознать, что ты потребовал – вероятно нет.

Когда ты показываешь БЯМ фото кота, она не анализирует, что на фото, а просто сравнивает кучу пикселей с кучей шаблонов, находит похожие и говорит, что на фото – кот.

Можешь потренировать БЯМ на куче фото с буквами в разных шрифтах и кеглях, чтобы научить её отличать букву a в 12 Times New Roman от b в 14 Consolas, например.

Тогда начнет отвечать на твой вопрос адекватно.

Это ж не аналитический ИИ, она не анализирует картинку, просто сравнивает с заученными паттернами. Если её не обучали ранее отличать на картинках, где какого размера шрифта буквы, она и сможет.

Vsevolod-linuxoid ★★★★★
(22.04.26 18:20:48 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 22.04.26 18:20:48 MSK

Так я не кегль просил, а высоту в пикселях.

ya-betmen ★★★★★
(22.04.26 18:49:06 MSK) автор топика

Ответ на: комментарий от ya-betmen 22.04.26 18:49:06 MSK

И если бы ты просил у развитого аналитического ИИ, он бы ответил.

А ты спросил у БЯМ. Она не умеет «думать», она не может понять смысл того, что ты попросил.

Она просто взяла твой запрос, что для нее набор данных, и не попыталась проанализировать, что ты запросил – а выдала ответ, что на картинке, по заученным паттернам.

Так как ранее её не учили обрабатывать паттерны «сообщи размер в пикселях объекта на картинке» – она и не ответила нормально.

Замечу, что даже если бы её такому все-таки обучали, БЯМ все равно могла бы соврать. Потому что это аналитический ИИ или человек «прикладывает линеку» и сообщает размер, БЯМ же просто угадывает ответ по схожим случаям.

БЯМ создает иллюзию, что там что-то «думает», потому что паттернов реально много. Попроси написать стихи про воробья в небе, например – паттерны со 100500 стихов у неё точно есть. Но находишь «слепое пятно» – и иллюзия рушится.

Vsevolod-linuxoid ★★★★★
(22.04.26 19:24:13 MSK)
Последнее исправление: Vsevolod-linuxoid 22.04.26 19:27:02 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от One 22.04.26 16:54:44 MSK

О, после коммента встретил новость, что chatgpt обновил генератор и текст уже нормальный

~~One~~ ★★★★★
(22.04.26 20:19:08 MSK)

Ссылка

а я вот всё жду когда нейросети научатся по mp3 партитуры писать. Раньше этим занимались энтузиасты, а сейчас с этим как-то глухо :(

ofp ★★
(22.04.26 20:24:18 MSK)

Ответ на: комментарий от ofp 22.04.26 20:24:18 MSK

А обычный анализ спектров этого не может?

ya-betmen ★★★★★
(22.04.26 20:57:52 MSK) автор топика

Ссылка

Ответ на: комментарий от ofp 22.04.26 20:24:18 MSK

Звукоанализ можно делать детерминированными алгоритмами безо всяких ИИ и давно, и лучше.

firkax ★★★★★
(22.04.26 21:12:27 MSK)

Ссылка

Ответ на: комментарий от ofp 22.04.26 20:24:18 MSK

а я вот всё жду когда нейросети научатся по mp3 партитуры писать.

quickquest ★★★★★
(22.04.26 21:17:33 MSK)

Ссылка

Ответ на: комментарий от ofp 22.04.26 20:24:18 MSK

ya-betmen А оно сможет отличить гитару от клавесина?

firkax А это как? а то я не образованный.

quickquest А оно рабочее? есть примеры? А то он деньгу просит.

ofp ★★
(22.04.26 23:22:58 MSK)
Последнее исправление: ofp 22.04.26 23:23:13 MSK (всего исправлений: 1)

Ответ на: комментарий от ya-betmen 22.04.26 17:27:15 MSK

Да в каком месте нестандартна то? Думаешь никому не пришло в голову например подписать каждый предмет на фото?

ИИ генерация картинок очень плохо умеет делать надписи (не распознавать). Только недавно научились, сегодня презентовали ChatGPT images 2, хвастались, что там это есть. Может быть если ты попросишь у агента наложить надписи с помощью imagemagick, результат будет лучше.

goingUp ★★★★★
(22.04.26 23:24:45 MSK)

Ссылка

Ответ на: комментарий от ofp 22.04.26 23:22:58 MSK

А оно рабочее? есть примеры? А то он деньгу просит.

Сам попробуй, там на начальном экране уверяют, что бесплатно, но с регистрацией.

quickquest ★★★★★
(23.04.26 01:44:20 MSK)

Ссылка

Ответ на: комментарий от ofp 22.04.26 23:22:58 MSK

А оно сможет отличить гитару от клавесина?

Ну звук у них разный так что наверное да.

ya-betmen ★★★★★
(23.04.26 08:12:30 MSK) автор топика
Последнее исправление: ya-betmen 23.04.26 08:12:37 MSK (всего исправлений: 1)

Ссылка

А paintbrush у тебя нет что ли? Открываешь картинку, увеличиваешь, пока не станут видны отдельные пикселЯ, смотришь по координатам внизу окна размер…

seiken ★★★★★
(24.04.26 17:44:31 MSK)

Ссылка

Где тег ЖЖ?

CrX ★★★★★
(24.04.26 17:45:20 MSK)

Ответ на: комментарий от CrX 24.04.26 17:45:20 MSK

тут

ya-betmen ★★★★★
(24.04.26 20:24:55 MSK) автор топика

Ссылка

Обратите внимание на изображение

https://qu.ax/J7v9R

Это ваши хваленые нейросети? Искусственный интеллект? Любому русскому человеку понятен контекст этой фразу, но нейродурачек пытается навязать тебе что-то другое. Отвратительно.

MoldAndLimeHoney ★★★
(24.04.26 20:29:48 MSK)

Ссылка

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

← А вы уважаете права копирайтеров?

Talks

Не знаю, вендекапец ли это, но →

Похожие темы