Пока в соседней теме срач про замедление Telegram, мой самый большой персональный проект (14 микросервисов) подошёл к чекпойнту, когда его уже можно показать публике. Это всё ещё ранняя Beta и много идей не реализовано, не судите строго. Также, так как сайт за CloudFlare, то методы доступа к нему не сильно отличаются от самого Telegram.
https://semagram.io/ - семантический поиск по Telegram
Под капотом более миллиона публичных Telegram каналов на нескольких десятков языков (2/3 на русском), сто пятьдесят тысяч публичных чатов и больше ста тысяч ботов (последним особенно горжусь, с учётом суммарного MAU ботов >560M мой каталог может претендовать на звание самого большого из публично существующих обходя findmini.app с 493M суммарного MAU ботов).
Поиск работает по эмбеддингам вычисленным на основе юзернейма, имени и аватарки канала, а также 10 последних текстовых сообщений. Для чатов, очевидно, сообщения в поиске не участвуют, потому что кто мне их даст. А для ботов, напротив, добавляется сообщение из пустого диалога и список команд.
Специфика семантического поиска в том, что вы не найдёте то, что можно и так найти в самом Telegram (например, канал по точному имени или юзернейму). Найти можно то, что в Telegram найти нельзя. Например, «чат для руссковорящих жителей Франции» (0 результатов во встроенном поиске). Чем длиннее и детальнее запрос, тем интереснее результат.
Проект обошёлся мне в 10$ на эмбеддинги, а также img2text, 16$ на прокси, 300 рублей на Telegram аккаунты (узнать список команд бота можно только через MTProto, увы) и 100$ на Claude (без него делал бы проект не 1 месяц, а 3). Ну и примерно 50 гигов на подкроватном сервере. А ещё огромное спасибо авторам pg_vector.
В общем, аудитории LOR представляется уникальная возможность попробовать сей инновационный сервис и обругать его, а также задать любые вопросы.






