LINUX.ORG.RU

Датасеты для нейросетей

 , датасеты,


4

4

Собственно разыскивается САБЖ, хочется именно под нейросети (не регрессия, не рэндом форесты и так далее, нейронкам нужно больше данных для обучения, на маленьких наборах рулят более простые алгоритмы). Желательно не про картинки (в картинках жестко рулит CNN и его модификации). Хочется чего-то качественного но не слишком сложного для сети (в то же время чтоб объём данных для обучения был достаточно большой), чтоб протестировать разные архитектуры сетей и проверить пару гипотез, но в то же время не упереться в объёмы видеопамяти. В идеале хотелось бы чего-то простенького, что может уложиться в 5-6 гигов видеопамяти в плане модели сети на раннем этапе (нет мне не надо достигать 99% точности, мне важнее узнать что способом a я достиг 75% точности затратив n часов обучения, а способом b я достиг 80% точности, затратив m часов обучения при одинаковых или похожих объёмах видеопамяти), если будет понятно, что гипотезы будут подтверждены, то там уже можно и машинку арендовать и делать что-то интересное и практическое. В общем, ищется аналог Lena.jpg но под нейронки, чем универсальней, тем лучше. На kaggle смотрел, но там слишком много датасетов, а хочется чего-то эталонного, так что хочу послушать предложения ЛОР-овцев.

PS

Интересные датасеты с интересными задачами тоже рассматриваются, но в приоритете эталонные датасеты.

PPS

Лучше чтоб мне не было нужды чистить и преобразовывать данные, это отдельная задача, которая на данный момент мне не требуется.

★★★★★

Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от a1ba

Это не ваши виртуалы, просто поиском по имени нашел забавное.

Вообще, у очень небольшого количества модераторов виртуалы таки есть, причем такие что по ним даже N-граммы по Жаккарду дают эрегированную единицу, но кто я такой…

Вообще, беседа не туда ушла, задача была не показать все что скрыто, а показать применимость видеокарты и сетей в «интересных» задачах. Поэтому можно выдохнуть, Обезъян умеет хранить секретики.

Obezyan
()
Ответ на: комментарий от Obezyan

Интересно. Но не понятно. Вершины - имена пользователей, а что показывают ребра графа?

Как я понял, вирутал вычисляется на лексическом сходстве текста, есть какие-то алгоритмы считающие какие-то расстояния между строками, и так далее. Поправьте меня, если я не прав.

lbvf50txt
()
Ответ на: комментарий от Obezyan

ИТ разработчики поделились на «народ» который ест облачный ИИ с лопаты и «обезъян» с собственными мощностями достаточными для запуска локальных версий. Есть еще фанатики локальных квантованных в усмерть сетей на ноутбучном CPU, но это клиника.

Многоуважаемый @Obezyan, вы редуцировали картину IT мира, ближе к реальности следующая модель:

  • «AI-спецы» - создающие свои локальные решения.
  • «Пользователи» - те кто активно использует готовые решения AI.
  • «Безымянные» - те кто громко кричит слово «бредогенератор».

Да, да, дорогой @Obezyan, иной раз мне кажется, что на LOR можно лишиться рассудка. Какие-то только диковенные суждения тут не встретишь. Замираешь от удивления. Всё есть, не хватает только пользователей которые будут кричать о необходимости читать бересту при лучине. Отрицание пользы от LLM, конкретно на LOR, можно отнести к разряду «умеренных».

Возникает вопрос - «Где тусить?». На «LOR» - свободно, но «безымянные» и «умеренные» лепят такую дичь, с такой уверенностью, что начинаешь сомневаться в собственном здравии. Как-то так. Тут я наблюдал битву когда один мой знакомый лорвец (не буду дергать его ник) отбивался от стаи «умеренных» - объясняя им, что Wayland - ПРОТОКОЛ. А тормозят всего лишь посредственные приложения его реализующие, «умеренные» шли сплочённо, группой, в их лицах не был и тени сомнения.

lbvf50txt
()
Последнее исправление: lbvf50txt (всего исправлений: 4)
Ответ на: комментарий от Obezyan

Там Гровер ещё работает, а это значит, что любой переборный алгоритм на квантовом компе быстрый, что в свою очередь открывает огромные возможности, особенно когда у тебя квантовый вычислитель просто как ускоритель (GPU) будет использоваться.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от lbvf50txt

Интересно. Но не понятно. Вершины - имена пользователей, а что показывают ребра графа?

Связи пользователей по их схожести, причем толщина линии ролики не играет, там пороговое отсечение, если пара-тройка пользователей оторвана от основного «клубка» и связана только между собой то с высокой долей вероятности это один и тот же пользователь. Нет смысла анализировать остальных пользователей внутри большого клубка (графа). Я построил этот граф просто для наглядности, потому что показывать данные в табличном виде - никто ничего не поймет.

Как я понял, вирутал вычисляется на лексическом сходстве текста, есть какие-то алгоритмы считающие какие-то расстояния между строками, и так далее. Поправьте меня, если я не прав.

Там более сложный подход тк в переписке технических специалистов слишком много этого самого сходства по-умолчанию. Поэтому в основу метода я положил Manhattan-based similarity + Jaccard based N-Gramms, а основными признаками взял:

Эмбеддинги текста

(агрегации по всем текстам пользователя)

  • mean — среднее значение эмбеддингов по каждому измерению
  • std — стандартное отклонение эмбеддингов
  • median — медианное значение эмбеддингов
  • q25 — 25-й перцентиль значений эмбеддингов
  • q75 — 75-й перцентиль значений эмбеддингов
  • skew — асимметрия распределения эмбеддингов
  • kurtosis — эксцесс (островершинность) распределения эмбеддингов

Стилометрические признаки

(расширенный набор характеристик стиля письма)

Длина и структура текста

  • avg_post_length — средняя длина поста
  • std_post_length — стандартное отклонение длины постов
  • median_post_length — медианная длина поста
  • max_post_length — максимальная длина поста

Предложения

  • avg_sentence_length — среднее количество предложений в посте

Пунктуация (сильные стилевые маркеры)

  • exclamation_rate — частота восклицательных знаков
  • question_rate — частота вопросительных знаков
  • comma_rate — частота запятых
  • ellipsis_rate — частота многоточий
  • semicolon_rate — частота точек с запятой
  • colon_rate — частота двоеточий
  • dash_rate — частота дефисов и длинных тире

Регистр постов

  • uppercase_rate — доля символов в верхнем регистре
  • caps_lock_posts_ratio — доля постов с преобладанием CAPS LOCK
  • capitalized_words_ratio — доля слов, начинающихся с заглавной буквы

Специальные символы

  • emoji_rate — доля эмодзи и non-ASCII символов

Цитирование

  • quote_rate — частота использования цитирования (например, >)

Лексическое разнообразие

  • vocabulary_richness (TTR) — отношение уникальных слов к общему числу слов

Слова

  • avg_word_length — средняя длина слова

Использование чисел

  • digit_rate — доля цифровых символов в тексте

Форматирование

  • newline_rate — частота переводов строки (многострочные посты)

Временные признаки (паттерны пользовательской активности)

  • hour_distribution — распределение активности по часам суток
  • weekday_distribution — распределение активности по дням недели
  • weekend_ratio — доля активности в выходные
  • night_activity_ratio — доля ночной активности
  • avg_session_length — средняя длительность сессии
  • posting_entropy — энтропия временного распределения постов (чем выше значение, тем более равномерна активность во времени)
  • avg_session_length — среднее количество постов в одной сессии (сессия — непрерывная активность без пауз более 1 часа)
  • avg_post_interval_hours — средний интервал между публикациями в часах

Символьные n-граммы

  • char n-grams (2–4) — частоты последовательностей из 2–4 символов
  • max_features = 1000 — 1000 наиболее информативных n-грамм

Социальные признаки

  • social — агрегированные характеристики социального взаимодействия пользователя (эмоджи)

KNN-скоринг и агрегирование сходства

  • top_k — число ближайших соседей, учитываемых при скоринге
  • cosine_jaccard — Jaccard-сходство для кандидатов, сильный сигнал
  • cosine_threshold — минимальное косинусное сходство для кандидатов, очень слабый сигнал
  • validation_threshold — порог итогового скоринга для принятия совпадения

Этого оказалось достаточно. Даже не пришлось анализировать темы создаваемые пользователями.

Obezyan
()
Ответ на: комментарий от lbvf50txt

ближе к реальности следующая модель

Да, вы абсолютно правы и ваша модель ближе к реальности. Все так и есть.

Возникает вопрос - «Где тусить?»

У меня такого вопроса не возникает. ЛОР это просто одно из мест где могут появляться технические специалисты с которыми интересно пообщаться на интересующие меня темы, но их к сожалению, катастрофически мало. К тому же сам ресурс просто не заточен так узко, он для линукс пользователей вообще, а не эксклюзивно для разработчиков.

И то что одни часто бывают вторыми никак не отменяет того факта что есть просто огромное количество тупняка.

Obezyan
()
Ответ на: комментарий от peregrine

Спасибо, буду знать. Я глубоко не копал, пока применимости в моих задачах этому нет, поэтому просто освоил базу и как запускать/использовать у себя локально.

Obezyan
()
Ответ на: комментарий от Obezyan

Вообще, беседа не туда ушла, задача была не показать все что скрыто, а показать применимость видеокарты и сетей в «интересных» задачах. Поэтому можно выдохнуть, Обезъян умеет хранить секретики.

И где тут Датасеты для нейросетей (комментарий) видеокарты? Я уже успел потыкать несколько нейросетей, и мой вердикт такой — чем тупее анализатор, чем больше он видит синтаксиса и меньше видит семантики, тем лудьше для задач стилистического анализа. На моей последней попытке производная BERT выдала по стилистике сигнал примерно в 100 раз меньше, чем по семантике.

Собственно, это же проблема с индексированием кода нейросетками — они вносят слишком много неточной семантики в эмбединги. Классический доширак с softmax вниманием и LayerNorm изначально делалась для NLP, перевода с одного языка на другой, а не для кодописания. И тем более не для стилевого анализа.

Я ещё раз подчеркну, что самая топовая современная англоязычная нейросеть под задачу имеет 100М параметров:
https://huggingface.co/StyleDistance/styledistance
(здесь не нужно путать конкретную технологию «искуственная нейросеть» с общим понятием «система анализа»)
Для её инференса даже в самой высокой точности вычислений не нужно каких-то больших ресурсов. Там электросудорожной терапией выколачивали из RoBERT-ы привязанность к семантике, и у меня есть большие сомнения по поводу того, что от точности вообще что-то осталось. А выколачивать нужно было, потому что на ванильных бертовых классификаторах даже разброс эмбедингов для одного человека может быть разным, а для разных — одинаковым. Тем более по средним значениям там всё грустново.

Так что я всё ещё жду примеров применимости A6000 в практических задачах.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

И где тут Датасеты для нейросетей (комментарий) видеокарты?

Очевидно, в начале и в конце:

В начале - sentence BERT-оподная сеть для создания текстовых эмбеддингов и их агрегации по пользователю: mean/std/median/quantiles/skew/kurtosis.

В конце - MLP-шка использующая KNN и агрегацию скоринга Learning-to-Rank типа Neural Scoring Head для нелинейной агрегации сигналов.

В комментарии я описывал используемые признаки (фичи), а не архитектуры сетей. Полное описание потянет на полноценную статью, которую у меня нет никакого желания писать.

Я ещё раз подчеркну,

что вы дупля не отбиваете в теме беседы.

Так что я всё ещё жду примеров применимости A6000 в практических задачах.

Маленькая обезъянка пытается троллить большую. Сначала было забавно, теперь просто уныло. Если вы не принимаете аргумент о том что видеокарты ускоряют вычисления в десятки-сотни раз позволяя батчинг при наличии хорошего объема видеопамяти, то о чем вообще можно дальше с вами разговаривать? Вы же клинический и позорите наш обезъянний род.

Obezyan
()
Ответ на: комментарий от Obezyan

@byko3y - вы натурально клинический :)

Взяли бесплатную сеть которая обучена на англоязычном датасете который синтетически сгенерировала GPT-4. После чего применили его к специализированному (техническому) русскоязычному тексту (скорее всего тупо на одной теме форума без подготовки датасета) без какой-либо адаптации, мало того - применили косинусною схожесть как это показана в примере к сети (что вообще не подходит к задаче) и заявили что результат плохой?

Я бы сильно удивился если бы там был какой-то результат. Надеюсь, ваш недуг не заразен и не передается через общение на форуме.

Obezyan
()
Ответ на: комментарий от Obezyan

В начале - sentence BERT-оподная сеть для создания текстовых эмбеддингов и их агрегации по пользователю: mean/std/median/quantiles/skew/kurtosis.

Даже слегка затюненная сеть не даёт в эмбедингах значимого объёма инфы для стилистики. Мне оно выдало кластеры людей, которые общаются друг с другом — при том, что я специально поудалял цитаты, чтобы стилистика не просачивалась между авторами. Но для BERT-подобных это просто «группа людей, которые разговаривают про комплюктеры».

В конце - MLP-шка использующая KNN и агрегацию скоринга Learning-to-Rank типа Neural Scoring Head для нелинейной агрегации сигналов.
Полное описание потянет на полноценную статью, которую у меня нет никакого желания писать.

Сейчас у каждого второго китайца в бложике Оллама с FAISS для поиска и/или ранжировавания, так что я не знаю, насколько там полноценные статьи у них по сравнению с вами.

Если вы не принимаете аргумент о том что видеокарты ускоряют вычисления в десятки-сотни раз позволяя батчинг при наличии хорошего объема видеопамяти, то о чем вообще можно дальше с вами разговаривать?

Ускоряют. Вопрос в том, что ускоряют и зачем. Также один из ключевых моих аргументов был о том, что для прикладных задач либо нет столько ускорять столько, либо есть гугл. Остаётся малое число задач, где ускорение действительно нужно, но их число реально маленькое.

Например, мне по ютьюбам показывают вот такую рекламу:
https://www.youtube.com/watch?v=5mqF-zd7nfI — RU TU55 ALT126 16 9
Я долго всматривался, и в итоге пришел к выводу, что и верхяя, и нижняя часть видео делалась одной и той же нейросеткой аля heygen.com. Правда, один чёрт это проще сделать на облачном сервисе, вроде, внезапно, того самого heygen.com. Даже рекламное агенство не будет разворачивать у себя сервер с пачкой видеокарт под эти задачи.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Взяли бесплатную сеть которая обучена на англоязычном датасете который синтетически сгенерировала GPT-4. После чего применили его к специализированному (техническому) русскоязычному тексту (скорее всего тупо на одной теме форума без подготовки датасета) без какой-либо адаптации

Я пару страниц назад примерно это и сделал, но результат получился отвратительный. Последующие попытки были на файнтюненой https://huggingface.co/DeepPavlov/rubert-base-cased

Как бы это не звучало странно, но на самом деле обученность нейросетки тому или иному языку играет намного меньше роли, чем тип используемого токенизатора — для стилистики семантика меньше всего важна. И таки у руберта токенизатор лучче.

мало того - применили косинусною схожесть как это показана в примере к сети

Датасеты для нейросетей (комментарий)
Буквально на предыдущей странице я подчеркнул, что косинусное расстояние в задаче ни к селу, ни к городу. В бумажке по ссылке она упомянута потому, что по косинусной схожести делаются STEL и STEL-or-content метрики, а не потому, что так захотелось авторам. Тем более для сырых и полусырых показателей косинус годится довольно плохо — координаты прежде всего должны быть отцентрированными относительно чего-то.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Даже слегка затюненная сеть не даёт в эмбедингах значимого объёма инфы для стилистики.

Так вы соберите датасет хотя бы за пять лет, на одной теме с форума это не имеет смысла.

Сейчас у каждого второго китайца в бложике Оллама с FAISS для поиска и/или ранжировавания, так что я не знаю, насколько там полноценные статьи у них по сравнению с вами.

Тоже без понятия че там. FAISS-gpu тоже использовал в этой задаче, это как бы стандарт уже для индексации.

Ускоряют. Вопрос в том, что ускоряют и зачем. Также один из ключевых моих аргументов был о том, что для прикладных задач либо нет столько ускорять столько, либо есть гугл. Остаётся малое число задач, где ускорение действительно нужно, но их число реально маленькое.

Один пример который разбивает ваше утверждение: RecSys. Настолько огроменный пласт что диву даешься, и там как раз мощности нужны от 1-2шт A6000 до 2-4шт A100.

Obezyan
()
Ответ на: комментарий от byko3y

О чем вообще наш спор? Вы взяли неподходящий, слабый инструмент, показали что он не подходит - я с этом согласен. Затем, я показал более сильный инструмент который решает задачу - вы с этим несогласны, хотя со скрипом, но начинаете признавать мои доводы о применимости видеокарт и сетей. Я не знаю что вам еще сказать на это.

Я вообще удивлен что в 2026 году об этом можно спорить.

Obezyan
()
Ответ на: комментарий от Obezyan

Так вы соберите датасет хотя бы за пять лет, на одной теме с форума это не имеет смысла.

Я где-то писал, что делал это на одной ветке? У меня миллион сообщений для разминки. Да, это ещё далеко до полного архива, но он мне и не нужен.

Тоже без понятия че там. FAISS-gpu тоже использовал в этой задаче, это как бы стандарт уже для индексации.

FAISS делает те самые страшные аберевиатуры, вроде ANN/KNN, смысл которых ты и без меня знаешь.

Один пример который разбивает ваше утверждение: RecSys. Настолько огроменный пласт что диву даешься, и там как раз мощности нужны от 1-2шт A6000 до 2-4шт A100.

Смотря какой размер рекомендационной системы и что нужно рекомендовать. Там довольно часто проблема даже не в вычислителях, а в хранении информации — внезапно, моя крайняя работа была по смежной тематике. Для массовых рекомендалок нужно снижать вычислительную сложность, а не наращивать её. Тот же гугл несмотря на все замечательные работы в Google Brains имеет довольно тупорылые алгоритмы рекомендаций, заточенные на домохозяек, он не пытается индивидуально под каждого анонима выстроить его личный информационный пузырь — в том числе потому на ютьюбе имеются феномены резкого всплеска популярности какой-то тупой херни, вроде человека, перееханного стальной катушкой, или спелеологов-аквалангистов.

Внезапно, тот же гугл НЕ использует видеокарты для рекомендаций — вместо этого они используют SparseCore, до этого использовали свои TPU, до этого всё читали на процессорах. И по этой же причине так же внезапно лучшее железо для рекомендационной системы — это Mac Studio на 192 Гб общей RAM, а не Nvidia A6000 с жалкими 60 Гб VRAM.

Такая вот фигня.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

О чем вообще наш спор? Вы взяли неподходящий, слабый инструмент, показали что он не подходит - я с этом согласен. Затем, я показал более сильный инструмент который решает задачу - вы с этим несогласны, хотя со скрипом, но начинаете признавать мои доводы о применимости видеокарт и сетей.

Может между нами есть недопонимание, но я не оспаривал методики из поста:
Датасеты для нейросетей (комментарий)
А ведь откуда мы знаем, правда там написана или нет? Я не оспариваю методику потому, что я примерно такие методы оценки бы и ожидал от системы идентификации авторов — другое дело, что за два дня я сделал то, что сделал за два дня. На моей зачуханной ноутбучной видеокарточке, которой, тем не менее, более чем достаточно для простых эмбедингов.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Оно сгруппировало в основном кто с кем общается:
https://ibb.co/0RXvRtQW
Получаются такие клубки, и где-то половина пользователей гуляют сами по себе на периферии. Лично этот мой акк попал в кучу с людьми, с которыми я общался тут.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Литерали гадание по кофейной гуще в этом треде. Я думал, что сейчас будут возмущения плана «я ничо не вижу».

Можно улучшить результат более грамотным подбором тренировочных триплетов, но это всё равно дерьмо собачье. В статье за 2025 год
https://arxiv.org/pdf/2410.12757
видно, что на тестах STEL-or-Content все берты выдают в среднем 22-31%, хотя дают 76-90% на тестах с одинаковым контентом. Это очень плохой результат для нейросетки, которую нужно херову тучу времени файнтюнить. Для сравнения, state of the art гибриды дают 90-95% точности на STEL-or-Content. И этого стоило ожидать, потому что берты не для стилистики вообще разработаны были.

byko3y ★★★★
()
Последнее исправление: byko3y (всего исправлений: 1)
Ответ на: комментарий от byko3y

Вы похоже не совсем правильно поняли суть работы на которую ссылаетесь. Два главных момента которые нужно понять:

  1. Исследователи использовали под 40 признаков, но если вы сравните их с тем что я перечислил то увидите что они лишь частично совпадают. Потому что они обучали под английские стилевые особенности. Русский язык, особенно технический русский, сильно отличается.

  2. Их метод защиты от протекания содержания в эмбеддинги намеренно СГЛАЖИВАЕТ индивидуальные маркеры и усиливает типовые различия. Собственно поэтому у вас и получилось плотное кольцо вокруг основного клубка. Сеть просто не заточена на выделение маленьких черточек. И как потом кластеризацию не крути, это не поможет.

Эта сеть за деревьями не видит леса потому что создавалась не для определения виртуалов. Она создавалась для определения схожих стилевых положительных маркеров (различение стиля письма в общем виде, без частностей) и дала очень хороший процент, который вы и видите в виде кольца.

Obezyan
()
Ответ на: комментарий от Obezyan

Исследователи использовали под 40 признаков, но если вы сравните их с тем что я перечислил то увидите что они лишь частично совпадают. Потому что они обучали под английские стилевые особенности. Русский язык, особенно технический русский, сильно отличается.

Они не использовали эти признаки как входную информацию, они использовали признаки для генерации тренировочных сетов, по сути дистилляции GPT4.

Их метод защиты от протекания содержания в эмбеддинги намеренно СГЛАЖИВАЕТ индивидуальные маркеры и усиливает типовые различия

И всё равно получается дерьмо собачье. Ну не предназначены трансформеры для обработки точной формальной информации.

Она создавалась для определения схожих стилевых положительных маркеров (различение стиля письма в общем виде, без частностей) и дала очень хороший процент, который вы и видите в виде кольца.

Скажем так: челов со странной манерой письма, различимых невооруженным глазом, действительно, она отличила. Но какой смысл в инструменте, который решает только простую задачу? Он НЕ помогает в разделении сложных случаев — именно плохой результат по STEL-or-Content показывает, что нейросеть проваливается на всех сложных случаях. А более продвинутые инструменты решат простую задачу и без трансформера.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

они использовали признаки для генерации тренировочных сетов, по сути дистилляции GPT4.

и

И всё равно получается дерьмо собачье.

Второе вытекает из первого.

Но какой смысл в инструменте, который решает только простую задачу?

Откуда мне знать почему вы взяли инструмент не подходящий к задаче? Наверное потому что без нормальной видеокарты вы не способны создать и обучить свой инструмент под задачу.

именно плохой результат по STEL-or-Content показывает

Нет. С чего вдруг ковыряние синтетических данных показывает что-то кроме ковыряния на синтетических данных? Да еще и по другой (пусть и смежной) задаче.

Вы на пофиг взяли сеть под другую задачу, объявили ее лучшей, ожидаемо получили бред и сделали вывод что раз даже она бред показывает то все сети подобной архитектуры не подходят. Это настолько конгениально что руки опускают вам что-то писать в ответ.

В сухом остатке - я получил результат, вы нет. Все остальное просто сотрясание воздуха.

Obezyan
()
Ответ на: комментарий от Obezyan

2-4шт A100

Это всё опять на поиграться для маленьких бизнес задач и да RecSys можно и без нейросетей делать, тот же Random Forest там часто работает лучше, а ещё и адаптировать его под меняющийся рынок выходит сильно быстрее (вышло новое говно в продажу надо переобучаться, RF кроме кучи памяти особо ничего не требует и учится всяко быстрее), по крайней мере пока нейронка не достигает размеров БЯМ. ЕМНИП ещё лет 5 назад, вот чтоб реально в лоб решать задачу уровня БЯМ (внезапно БЯМ натренированы на людей, а есть задачи когда надо не на общение людей тренировать, а на другие, не менее сложные задачи, где общение людей вообще никак не коррелирует и которые люди не решают сейчас в принципе, т.к. хоть и понятно как их решать, но это столь затратный процесс, что вручную его делать ну крайне долго и дорого, а автоматизация особо не помогает, т.к. всё слишком ситуативно, т.е. файнтюнить БЯМ на такие задачи нет смысла), например, к таким задачам можно отнести поиск вредоносного ПО на основании анализа вредоносных бинариков (всякая супер-пупер умная эвристика), а ещё веселее если задача искать закладки и уязвимости в проприетарном ПО опять на уровне анализа бинариков, когда сорцов нет. Так вот, чтоб там даже что-то пытаться делать надо от 8 до 16 A-100. ЕМНИП такие машинки готовые продавались, когда A-100 стоила 1-1,5 ляма деревянных, такая машинка стоила от 12 до 30 лямов в зависимости от комплектации. Как это делать на процессоре я вообще ХЗ, там наверное суперкомп будет под лярд стоить аналогичный по производительности.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

тот же Random Forest там часто работает лучше

Да, Random Forest и Light DCN долго были основным инструментом в RecSys, но сейчас уже используют и Transformers и Graph networks.

Так вот, чтоб там даже что-то пытаться делать надо от 8 до 16 A-100.

С тех пор много воды утекло. Начали широко использовать механизм внимания, появились новые оптимизаторы которые не так жрут память, новые подходы аля Gradient Accumulation, Mixed Precision (bf16), Gradient Checkpointing и тд и тп. В целом обучение сетей стало доступнее.

Как это делать на процессоре я вообще ХЗ

Вот и я также, хотя @byko3y утверждает что видеокарты не нужны для этого и вообще нейронки не работают.

Obezyan
()
Ответ на: комментарий от Obezyan

Откуда мне знать почему вы взяли инструмент не подходящий к задаче? Наверное потому что без нормальной видеокарты вы не способны создать и обучить свой инструмент под задачу.

Лол. исследователи из статьи взяли сетап из 4хA6000, и у них получилось дерьмо. Что и требовалось доказать — важны не видеокарты, а грамотные алгоритмы.

Вы на пофиг взяли сеть под другую задачу, объявили ее лучшей, ожидаемо получили бред и сделали вывод что раз даже она бред показывает то все сети подобной архитектуры не подходят.

Я взял модель берт-типа с русским эмбедером. обучил её на сотнях тыщ триплетов из LOR-а, и получилась модель, которая группирует собеседников по интересам. Вот и всё, если ещё не понятно было.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Лол. исследователи из статьи взяли сетап из 4хA6000, и у них получилось дерьмо. Что и требовалось доказать — важны не видеокарты, а грамотные алгоритмы.

Взяли 4хA6000 и решали ДРУГУЮ! задачу.

Ладно, все, вы меня победили, я всегда был слаб и безоружен перед чужой тупостью.

Obezyan
()
Ответ на: комментарий от peregrine

ещё веселее если задача искать закладки и уязвимости в проприетарном ПО опять на уровне анализа бинариков, когда сорцов нет. Так вот, чтоб там даже что-то пытаться делать надо от 8 до 16 A-100

Как вы собрались это делать, если каждая уважающая себя закладка нынче шифруется в два слоя? Там нужна точная математика для расшифровки сначала, причём, если это какие-нибудь там AES, то математика должна быть строго последовательная. Назвать любое шифрование закладкой? Дык у нас в тырпарйзном софте сплошь и рядом шифрование. Оно ещё и будет на удалённые сервера ходить, но только на самые доверенные, вроде ghcr.io — это 2026 год на дворе.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Да, Random Forest и Light DCN долго были основным инструментом в RecSys, но сейчас уже используют и Transformers и Graph networks.

Здесь, наверное, стоило бы сразу упомянуть «кем используется» и «какая от него польза». Потому что бредогенераторы вроде этих:
Датасеты для нейросетей (комментарий)

Генерация тестов по скриншотам десктоп и веб приложений https://youtube.com/watch?v=4ujcAOWkaew
Создание DFMEA по чертежам https://youtube.com/watch?v=FlFB65gSRe8

можно делать на чом угодно, больше пользы от них не станет.

Пару слоёв «продвинутых эмбедеров» для превращения разреженных входных данных в сжатую форму можно сделать на утюге. Называть это «трансформером» можно, но люди могут не понять, слишком уж общо и расхайповано понятие.

byko3y ★★★★
()
Ответ на: комментарий от peregrine

Кстати, говоря про закладки — я несколько лет назад для лулзов написал небольшой бекдорчик, который прошел все сканеры на virustotal. Так я даже его особо и не шифровал. Потому что какой бы у вас ни был сложный патерн-матчер — он всё равно сравнивает код с известными патернами. Если патерн не известен, то анализаторы, как правило, считают его очередным легальным проприетарным блобом.

byko3y ★★★★
()
Ответ на: комментарий от byko3y

Здесь, наверное, стоило бы сразу упомянуть «кем используется» и «какая от него польза».

Например, используется в Яндексе, Wildberries, итд, вот неплохое введение.

можно делать на чом угодно, больше пользы от них не станет.

На этом месте я с вами прощаюсь, вы воинствующий невежда без какого-либо вменяемого опыта тк не смогли ничего показать кроме полупереваренных ответов чатгпт. Это видно по тому как вы периодически не попадаете в тему беседы. Сначала я думал у вас какая-то форма аутизма и делал скиду на это, теперь понял что вы просто используете LLM для ответов. Спорить с дураками я не умею, поэтому добро пожаловать в игнор.

Obezyan
()
Ответ на: комментарий от Obezyan

Например, используется в Яндексе https://www.youtube.com/watch?v=Dw8eM7z4h4s

Пример валидный, но здесь нужно сразу уточнять, что трансформер ­представляет собой маленькую часть большой системы, которая с одной стороны собирает эмбединги для трансформера, а с другой стороны выходные эмбединги из трансформера использует в двух башнях для последующего предсказания уже вне трансформера.

Wildberries https://www.youtube.com/watch?v=3xKFDlib9wY

LightGCN звучит умно, но на самом деле это называется Linear Low-Pass Graph Filter или Simple Graph Convolution:
https://arxiv.org/pdf/1902.07153
Это довольно тупой фильтр усреднения, который исследователи считали на топовой видеокарте GTX-1080Ti с 11 Гб VRAM. Я детально не разбирался, но скорее всего на Mac Studio оно работает лучше.

На этом месте я с вами прощаюсь, вы воинствующий невежда без какого-либо вменяемого опыта тк не смогли ничего показать кроме полупереваренных ответов чатгпт. Это видно по тому как вы периодически не попадаете в тему беседы. Сначала я думал у вас какая-то форма аутизма и делал скиду на это, теперь понял что вы просто используете LLM для ответов. Спорить с дураками я не умею, поэтому добро пожаловать в игнор.

На этом месте лимит способностей отрицания закончился, понимаю. Я даже не пытался добивать по упомянутым примерам особо так-то, хотя было чем. Пойдите с вашим другом lbvf50txt пообнимайтесь и утештесь разговорами о том, как нейросети скоро всех заменят.

byko3y ★★★★
()
Ответ на: комментарий от Obezyan

Лет 10-12 назад (уже точно не помню) было собеседование в дочернюю контору Палантира которая занимается поиском чего скажут в больших данных. Там нужно было по массиву email сообщений определить организованную преступную группу из 8 человек которая разбросана по всему миру и скрывает свою деятельность.

Lavender или Where’s Daddy?

Dimez ★★★★★
()
Ответ на: комментарий от Dimez

Lavender или Where’s Daddy?

Я буду все отрицать (c)

А если серьезно, то я удивлен что тут вообще кто-то знает эти названия. И - нет, они появились позже, я описывал события которые предшествовали созданию Лаванды.

Obezyan
()
Ответ на: комментарий от byko3y

Угу. Это именно потому что поиск закладок в сильном варианте это задача для Сильного ИИ. Но даже те Слабые ИИ что есть теоретически покрывают куда больше проблем, чем самый лучший и хитрый паттерн матчинг (который по сути умеет искать только то что популярно, ака бекдоры от скрипткидди).

peregrine ★★★★★
() автор топика
Ответ на: комментарий от byko3y

О, вариантов масса (понятно что какое-то говно всё равно пролезет).

Назвать любое шифрование закладкой?

Пометить его подозрительным. Если исходников нет, то считать за бекдор, такие дела.

Дык у нас в тырпарйзном софте сплошь и рядом шифрование.

Я тебя обрадую, у вас не только шифрование сплошь и рядом, но ещё и бекдоры сплошь и рядом, если вы с вашим софтом мало-мальски кому-то интересны и я даже не про спецслужбы, а про ваших прямых конкурентов. Я сам работал когда-то в компании, куда конкуренты подкинули своего человечка (которого до этого сократили), подсадили его аж на должность где у него по должностным инструкциям был доступ к определённой информации (базе данных со всеми клиентами). Угадай как быстро компания осталась без заказов (месяц его работы), после чего она разорилась а того дяденьку на другой же день после увольнения взяли в большие начальники ещё и с повышением у тех же конкурентов, что его до этого уволили. Чёт там ещё суд какой-то был, но трудно судиться без заказов и денег с теми у кого их много, особенно когда голова той конторы где-то за бугром находится и им вообще фиолетово на УК РФ (дело было в начале 10-ых). Но не везде столь безалаберное руководство (взяли дядьку с улицы, якобы уволенного конкурентами на большую и ответственную должность, не проверяя что это вообще за перец, стартап фигли там даже безопасника полноценного не было, был челик который IT безопасностью занимался, но не людьми). Иногда такого перчика подсадить к вам ну не выходит никак, тогда есть вариант подсадить перчика в команду которая софт для вас пишет, может в вашу (тогда у вас есть исходники для анализа, правда как гарантировать что исходники и бинарики одинаковы), а может не в вашу (тогда их может и не быть).

peregrine ★★★★★
() автор топика
Ответ на: комментарий от peregrine

Я тебя обрадую, у вас не только шифрование сплошь и рядом, но ещё и бекдоры сплошь и рядом, если вы с вашим софтом мало-мальски кому-то интересны и я даже не про спецслужбы, а про ваших прямых конкурентов.

Казалось бы, при чём тут ИИ и вообще это тред? Если мотивированный конкурент захочет подсадить шпиона, а ваше руководство будет щёлкать клювом, то тут ничего не поможет. Ещё Паркинсон чёрт полвека назад писал, что лучший способ утилизировать людей, которые рвутся ко власти, но ничего не умеют — это подарить «ценного сотрудника» конкуренту.

Как правильно Dimez выше написал — только лишь програмными средствами это не решается. Даже если чел работает в офисе под камерами — всё равно умудряются сливать инфу.

Я по этой же причине в шоке от тупорылости HR-ов, которые набирают людей строго из точно такой же должности в этой же отрасли — это же идеальный план по поимке шпиона.

byko3y ★★★★
()