Как найдёте с нами поделитесь. А то пока даже нейросеть у многих не справляется не то что по аудио, а по написанному в комментариях. Например польский с украинским путают и так далее.
Не нужно быть гением, чтобы не желать говна. И если пользователю в принципе не интересен контент на определённом языке, то зачем оправдывать отсутствие персональной фильтрации?
Это долго и сложно. Гораздо проще вытаскивать автосгенерированные ютубом субтитры, заголовок и описание видео, вдобавок можно вытаскивать комментарии и даже попробовать получить информацию о релевантных видео (хотя бы без сохраненных кук). С этих данных можно с некоторой статистической точностью предположить язык контента.
Часть логики можно сделать в виде расширения браузера, которое в фоне буде подгружать нужные данные, а часть - в виде нативного приложения, в котором уже обрабатывать данные и экспериментировать со статистическими моделями. Обмен данными сделать через native messaging (в firefox).
Можно хоть нейронки засунуть. Идея в том, что мы можем получить набор релевантных данных быстро и легко, без скачивания всего видео и без распознавания аудиодорожки и текстов на видео.
На уровне прокси сделать то же самое, только headless, ну и приостановить отдачу контента клиенту, пока не проанализируем видео или вытащим результат анализа из своей бд.
Да, могут быть лаги в десятки секунд перед первой загрузкой видео, но это зависит от приоритета этой самой блокировки.
Но твой ответ весьма типичен - вместо того, чтобы подумать, как можно это реализовать, ты задаешь риторический вопрос, подразумевая, что это сделать нельзя.
Это ответ лентяя или уставшего человека, который просто не хочет думать. Или не может, что ещё хуже.
Вы привели много косвенных вариантов, по которым можно «предположить». Я не спорю, реализовать можно много чего. Можно и распознавание речи прикрутить. На основании которого постфактум(или в буфер и пока не обработаем клиенту не дадим) сделать блокировку. Только вот нюанс, это будет убер комбайн который все равно не гарантирует 100% результата. ЗЫ Вы похоже так и не поняли намек на mp4.
Нужно иметь ввиду, что ютуб сам иногда ошибается с языком. Так что я не рекомендую использовать автосубтитры как единственный источник информации, о чём писал выше.