Как сравнить звуковые файлы?

Если бы это были картинки JPEG, я бы вычел одну из другой, и смотрел, останется ли что-то заметное

А если бы это были картинки немного разных размеров и форматов?

ya-betmen ★★★★★
(05.05.26 23:00:35 MSK)
Последнее исправление: ya-betmen 05.05.26 23:00:47 MSK (всего исправлений: 1)

Преобразуй mp3 в картинку, таким образом задача сведена к той что ты умеешь решать

cobold ★★★★★
(05.05.26 23:25:20 MSK)

Что значит не настолько совпадают, выровняй как следует, увеличив масштаб до видимости семплов и совмещаяя формы сигнала до семпла. Потом вычитай. Если это два mp3 разного битрейта или разным кодером пожатые, но с одного источника, разница будет очень незначительная. Если совместить и вычесть не удается, значит исходник был разный.

Смотря как файлы получены, если это оцифровка аналогового носителя, то они не совместятся. Если сжатый CD, то совместятся.

James_Holden ★★★★★
(05.05.26 23:31:12 MSK)

mp3 - это не lossless формат. Даже если ты два раза перекодируешь исходный звуковой поток в mp3 файл с одинаковым bitrate - на выходе получишь по разному сжатый звуковой поток кодеком mp3.

Плюс ещё в mp3 может быть VBR (Variable Bitrate).

Так что сравнение лоб в лоб не сработает. Смотри глазами, раз у тебя аудасити, ну и слушай, какой программной - анализатором воспользоваться не подскажу.

kostik87 ★★★★★
(05.05.26 23:31:28 MSK)
Последнее исправление: kostik87 05.05.26 23:33:24 MSK (всего исправлений: 1)

Ответ на: комментарий от kostik87 05.05.26 23:31:28 MSK

по разному сжатый звуковой поток кодеком mp3.

Разница небольшая и очень специфическая.

Плюс ещё в mp3 может быть VBR (Variable Bitrate).

Как это влияет на возможность совместить, вообще? Разница будет минимальна после вычитания. Останется характерный пшшшпфффшпппшш

James_Holden ★★★★★
(05.05.26 23:34:06 MSK)

Ответ на: комментарий от James_Holden 05.05.26 23:34:06 MSK

Я не знаю, что автору надо и зачем. Банально открой две дорожки найди где и что визуально продолжается, вырежи, склей.

kostik87 ★★★★★
(05.05.26 23:36:02 MSK)

Ответ на: комментарий от kostik87 05.05.26 23:36:02 MSK

Что значит визуально, смотря какая там музыка, если, например, металкор то визуально весь трек будет выглядеть как равномерная сплошная полоса. Что там найдешь.

James_Holden ★★★★★
(05.05.26 23:37:42 MSK)

Ответ на: комментарий от James_Holden 05.05.26 23:37:42 MSK

100% можно сравнить через ffmpeg, с некоторой аппроксимацией.

А так - хз.

kostik87 ★★★★★
(05.05.26 23:42:19 MSK)

какая программа так умеет?

Я не пробовал, но вдруг оно?

$ gh search repos --language python wav diff -L 100:

…
ke4ahr/pydiffsa Python diff(1) and Spectrum Analyzer for comparing WAV files. public about 1 month ago
…

$ gh repo view ke4ahr/pydiffsa:

Python diff(1) and Spectrum Analyzer for comparing WAV files.

Periodic windowed frequency (spectral) analysis of WAV files.

pydiffsa applies a Hann-windowed FFT at regular hop intervals across one or two WAV files and prints the frequency bin magnitudes in dBFS for each window. When two files are given, it can compute the averaged per-bin dB difference (B − A) across all windows — useful for comparing a reference signal against a synthesised or processed version of it. …

dataman ★★★★★
(05.05.26 23:43:23 MSK)

аудиофилы на слух тебе определят какой лучше. дай им послушать

Welle
(05.05.26 23:51:44 MSK)

Ответ на: комментарий от ya-betmen 05.05.26 23:00:35 MSK

А если бы это были картинки немного разных размеров и форматов?

ImageMagick и PIL умеют преобразовывать форматы, масштабировать, сдвигать и обрезать.

question4 ★★★★★
(06.05.26 00:00:08 MSK) автор топика

Ответ на: комментарий от James_Holden 05.05.26 23:31:12 MSK

если это оцифровка аналогового носителя, то они не совместятся

Допустим, не совместятся. Как сравнить их в таком случае?

question4 ★★★★★
(06.05.26 00:01:19 MSK) автор топика

Ответ на: комментарий от kostik87 05.05.26 23:31:28 MSK

mp3 - это не lossless формат. Даже если ты два раза перекодируешь исходный звуковой поток в mp3 файл с одинаковым bitrate - на выходе получишь по разному сжатый звуковой поток кодеком mp3.

JPEG — тоже формат с потерями. Но если 2 разных файла преобразовать в несжатые битмапы RGB одинаковых размеров, их можно вычесть чтобы оценить сходство.

Смотри глазами,

Предпочитаю смотреть на результат преобразований, убирающих всё лишнее. Например, на разность.

question4 ★★★★★
(06.05.26 00:03:53 MSK) автор топика

Есть 2 файла MP3. Вроде бы, в них одно и то же, но как узнать точно?

Никак. MP3 при сжатии портит исходную длину файла. Тот же OGG Vorbis этим вроде бы не страдает, при декодировании выдаст файл исходной длины.

Skullnet ★★★★★
(06.05.26 00:05:41 MSK)
Последнее исправление: Skullnet 06.05.26 00:06:02 MSK (всего исправлений: 1)

https://codeberg.org/derat/soundalike

anonymous
(06.05.26 00:07:31 MSK)

Ответ на: комментарий от kostik87 05.05.26 23:42:19 MSK

100% можно сравнить через ffmpeg, с некоторой аппроксимацией.

Можно подробнее? Это cmp и dct?

Один файл сдвинут относительно другого на 4.336 с, как это учесть?

question4 ★★★★★
(06.05.26 00:07:37 MSK) автор топика

Ответ на: комментарий от dataman 05.05.26 23:43:23 MSK

gh search repos

Что это?

ke4ahr/pydiffsa

Не гуглится, можно ссылку?

question4 ★★★★★
(06.05.26 00:10:28 MSK) автор топика

Перегони в wav, переверни фазу и сложи

ist76 ★★★★★
(06.05.26 00:11:01 MSK)

Ответ на: комментарий от question4 06.05.26 00:01:19 MSK

А что именно надо сравнить, конкретно, и с какой целью? Какие нужны выводы?

James_Holden ★★★★★
(06.05.26 00:18:04 MSK)

Ответ на: комментарий от question4 06.05.26 00:03:53 MSK

Но если 2 разных файла преобразовать в несжатые битмапы RGB одинаковых размеров, их можно вычесть чтобы оценить сходство.

mp3 отличается тем, что он по своей природе дает сдвиг существенный. Поэтому нужно точное выравнивание. Если оно сделано, то дальше такая же петрушка как с картинками.

James_Holden ★★★★★
(06.05.26 00:19:34 MSK)

Ответ на: комментарий от Skullnet 06.05.26 00:05:41 MSK

MP3 при сжатии портит исходную длину файла

Нашли проблему. Выравниваешь, и вперед.

James_Holden ★★★★★
(06.05.26 00:20:33 MSK)

Ответ на: комментарий от question4 06.05.26 00:10:28 MSK

Что это?

GitHub CLI 2.40.0.

Не гуглится, можно ссылку?

Репозиторий на Гитхабе.

dataman ★★★★★
(06.05.26 00:23:56 MSK)

Ответ на: комментарий от ist76 06.05.26 00:11:01 MSK

Перегони в wav, переверни фазу и сложи

С этого начал. Они слишком сильно различаются.

question4 ★★★★★
(06.05.26 00:26:44 MSK) автор топика

Ответ на: комментарий от James_Holden 06.05.26 00:18:04 MSK

А что именно надо сравнить, конкретно, и с какой целью? Какие нужны выводы?

Что в обеих аудиозаписях произносятся одни и те же слова и играют одни и те же инструменты. Или выделить участки, когда есть различия.

question4 ★★★★★
(06.05.26 00:28:30 MSK) автор топика

Ответ на: комментарий от dataman 06.05.26 00:23:56 MSK

Репозиторий на Гитхабе.

https://github.com/ke4ahr/pydiffsa Странно, что Гугл его не видит.

question4 ★★★★★
(06.05.26 00:31:21 MSK) автор топика

Ответ на: комментарий от James_Holden 06.05.26 00:19:34 MSK

Поэтому нужно точное выравнивание.

Как в Audacity сдвигать треки друг относительно друга помимо двиганья заголовка мышью? Мышью точно не получается.

question4 ★★★★★
(06.05.26 00:35:09 MSK) автор топика

Ответ на: комментарий от dataman 05.05.26 23:43:23 MSK

ke4ahr/pydiffsa Python diff(1) and Spectrum Analyzer for comparing WAV files. public about 1 month ago

Работает и с MP3. Выдаёт 1 число до 1.0 — видимо, степень соответствия. Для идентичных файлов — 1.0, для почти неразличимых на слух — ~0.9, для не имеющих ничего общего — ~0.5.

Недостаточно информативно.

question4 ★★★★★
(06.05.26 00:48:00 MSK) автор топика

Ответ на: комментарий от question4 06.05.26 00:48:00 MSK

Выдаёт 1 число до 1.0 — видимо, степень соответствия.

Это с параметром --diff так?

Недостаточно информативно.

Что ж, чем смог. :)

dataman ★★★★★
(06.05.26 00:53:21 MSK)
Последнее исправление: dataman 06.05.26 00:59:35 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 06.05.26 00:48:00 MSK

Есть 2 файла MP3. Вроде бы, в них одно и то же, но как узнать точно?

Недостаточно информативно

По-моему это достаточно информативно по ТЗ топика. Иначе тебе надо рихтовать ТЗ дополнительными условиями

bryak ★★★★
(06.05.26 01:01:24 MSK)
Последнее исправление: bryak 06.05.26 01:03:07 MSK (всего исправлений: 3)

Ответ на: комментарий от ya-betmen 05.05.26 23:00:35 MSK

Если бы это были картинки JPEG, я бы вычел одну из другой, и смотрел, останется ли что-то заметное

А если бы это были картинки немного разных размеров и форматов?

Вычитать картинки не вариант даже когда формат и размер совпадают - а что, если цвета хоть чуть-чуть скорректированы?

Я уже давно с этой темой игрался, было интересно, пробовал несколько подходов, код (старый, новее на notabug, а он бесконечно лежит): https://github.com/Bfgeshka/picunic

Bfgeshka ★★★★★
(06.05.26 01:18:22 MSK)

Ответ на: комментарий от dataman 06.05.26 00:53:21 MSK

Это с параметром --diff так?

Такого нет. С -compare.

question4 ★★★★★
(06.05.26 01:35:26 MSK) автор топика

Ответ на: комментарий от Bfgeshka 06.05.26 01:18:22 MSK

Вычитать картинки не вариант даже когда формат и размер совпадают - а что, если цвета хоть чуть-чуть скорректированы?

Значит на разностной картинке будут цветные пятна в соответствующих местах. Обычно довольно тусклые. Это не будет сплошной чернотой, но будет ближе к ней, чем к исходным.

question4 ★★★★★
(06.05.26 01:37:40 MSK) автор топика

Ответ на: комментарий от bryak 06.05.26 01:01:24 MSK

Там разъясняется — сравнимо с вычитанием битмапов.

question4 ★★★★★
(06.05.26 01:38:48 MSK) автор топика

Ответ на: комментарий от question4 06.05.26 00:26:44 MSK

Они слишком сильно различаются.

Ну значит получишь довольно существенную «разницу».

Всё ещё непонятно, что ты хочешь. В случае с JPEG твоим так же ведь. Если отличаются слабо, в виде разности получишь почти полностью чёрную картинку с лёгким шумом, если отличаются сильно (например один адски зашакален), получишь пёструю картинку с кучей информации. Ну и тут так же. Отличаются слабо — получишь «почти тишину», отличаются сильно — получишь много шума, в котором даже читается оригинал.

Разве это и не есть то, чего ты хотел? Чего ты хочешь добиться в итоге?

CrX ★★★★★
(06.05.26 01:43:13 MSK)

Ответ на: комментарий от question4 06.05.26 01:37:40 MSK

Значит на разностной картинке будут цветные пятна в соответствующих местах. Обычно довольно тусклые. Это не будет сплошной чернотой, но будет ближе к ней, чем к исходным.

В то время как для алгоритмов получше можно игнорировать разницу в размерах, форматах, аспекте и цветах изображений. И сравнивать хеш-отпечатки вместо того, чтобы каждый раз вычитать, если картинок больше двух.

Bfgeshka ★★★★★
(06.05.26 01:46:51 MSK)

Ответ на: комментарий от CrX 06.05.26 01:43:13 MSK

Всё ещё непонятно, что ты хочешь. В случае с JPEG твоим так же ведь. Если отличаются слабо, в виде разности получишь почти полностью чёрную картинку с лёгким шумом, если отличаются сильно (например один адски зашакален), получишь пёструю картинку с кучей информации. Ну и тут так же. Отличаются слабо — получишь «почти тишину», отличаются сильно — получишь много шума, в котором даже читается оригинал.

Если вычитаемые звуковые файлы очень похожи, но не совпадают по фазе, получится звуковой файл, в котором прекрасно слышен оригинал. У меня тоже прекрасно слышен оригинал.

Можно ли как-то преобразовать, чтобы убрать такой сдвиг? Или только сконвертировать в PCM и перебором искать сдвиг, когда сумма модулей (или квадратов) разностей будет минимальна?

question4 ★★★★★
(06.05.26 02:01:36 MSK) автор топика

Ответ на: комментарий от Bfgeshka 06.05.26 01:46:51 MSK

В то время как для алгоритмов получше можно игнорировать разницу в размерах, форматах, аспекте и цветах изображений. И сравнивать хеш-отпечатки вместо того, чтобы каждый раз вычитать, если картинок больше двух.

Предложи такой алгоритм для звука. Выше уже было что-то через Фурье, но грубо.

Кроме того, интересуют именно различающиеся места. Через хеши их не найдёшь, всё равно придётся вычитать.

question4 ★★★★★
(06.05.26 02:04:39 MSK) автор топика

Ответ на: комментарий от question4 06.05.26 02:01:36 MSK

Если вычитаемые звуковые файлы очень похожи, но не совпадают по фазе

Инвертируй фазу.

Можно ли как-то преобразовать, чтобы убрать такой сдвиг?

Какой сдвиг? Если там по времени сдвиг на пару сэмплов — просто визуально совмести в том же audacity. Так, чтобы сэмпл одного файла был над соответствующим сэмплом другого.

У тебя с твоими JPEG то же самое же. Если одна картинка будет имеет какое-то смещение относительно другой (ну скажем, вправо на 3 пикселя и вниз на 5), то тоже всё твоё вычетание будет бесполезным, пока не совместишь.

CrX ★★★★★
(06.05.26 02:09:04 MSK)

Ключевое слово - мел-спектрограмма. Преобразует аудиозапись в спектрограмму, представляющую собой изображение. Можно преобразовать всю запись или часть, разбив на чанки.

Далее сравниваются изображения.

Попробуй в этом направлении поиграться. В Python есть библиотека librosa, в ней функция librosa.feature.melspectrogram Результат очень желательно перевести в децибелы.

ИИшечка примерно такой код сгенерила для примера использования librosa. Проверил - работает:

import librosa
import librosa.display
import numpy as np
import matplotlib.pyplot as plt

# 1. Загружаем аудиофайл
# sr=None оставит оригинальную частоту дискретизации
y, sr = librosa.load('твой_файл.wav', sr=None)

# 2. Вычисляем мел-спектрограмму
# n_mels — количество полос (фильтров) в мел-шкале
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

# 3. Переводим мощность в децибелы (логарифмическая шкала)
S_dB = librosa.power_to_db(S, ref=np.max)

# Визуализация (опционально)
plt.figure(figsize=(10, 4))
librosa.display.specshow(S_dB, x_axis='time', y_axis='mel', sr=sr)
plt.colorbar(format='%+2.0f dB')
plt.title('Mel-spectrogram')
plt.tight_layout()
plt.show()

Кстати, можно сразу в mp3 грузить файл.

anonymous_incognito ★★★★★
(06.05.26 02:37:41 MSK)
Последнее исправление: anonymous_incognito 06.05.26 02:48:17 MSK (всего исправлений: 2)

В Sonic Visualiser можно попробовать https://charm.rhul.ac.uk/analysing/p9_1.html

kott ★★★★★
(06.05.26 02:56:49 MSK)

По аналогии если.

Допустим, сняли с рук на телефон два кадра в одном месте. Как надежно опрелелить вычитанием, что во втором кадре не добавился предмет? Между кадрами все поедет, с рук же снимали. Ракурс поедет. Я не знаю с ходу, как это сделать.

James_Holden ★★★★★
(06.05.26 07:18:09 MSK)

Ответ на: комментарий от James_Holden 06.05.26 07:18:09 MSK

ИИшкой только если?

ist76 ★★★★★
(06.05.26 08:33:07 MSK)

Ответ на: комментарий от ist76 06.05.26 08:33:07 MSK

Я думаю да, но это же нужна специально обученная ИИшка.

James_Holden ★★★★★
(06.05.26 08:44:28 MSK)

Ответ на: комментарий от kott 06.05.26 02:56:49 MSK

Sonic Visualiser

Какие у них полезные программы, да ещё и на Qt6! :)

dataman ★★★★★
(06.05.26 09:02:12 MSK)

sounddiff, AFT SonicDeCloner

если хочешь сам разобраться как сравнивать смотри sounddiff там питон есть исходники

cylon17 ★
(06.05.26 09:07:38 MSK)

Ответ на: комментарий от Welle 05.05.26 23:51:44 MSK

аудиофилы кабеля же на слух определяют, не ?

x905 ★★★★★
(06.05.26 09:19:32 MSK)

Ответ на: комментарий от question4 06.05.26 00:03:53 MSK

простой как три копейки….
вычитаешь и получаешь шум квантования и сжатия, эт если они еще идеально по таймингу совпадут :)
а если сдвинуты даже на доли секунд (точнее большее чем на 1/(2*20кгц) = 25 мкс) , то есть вероятность что найдется частота которая в разных треках будет сдвинута на полфазы и на выходе будет жопа жопошная… :)

но даже в идеальном случае ты из онного шума ничего умного вычислить не смогешь.
сей шум надобно будет проанализировать и покумекать, а потом прогнать исходные файлы, какой из них в каком месте лучшееее…

pfg ★★★★★
(06.05.26 10:13:42 MSK)
Последнее исправление: pfg 06.05.26 10:21:29 MSK (всего исправлений: 2)

Ответ на: комментарий от question4 06.05.26 02:01:36 MSK

Можно ли как-то преобразовать, чтобы убрать такой сдвиг?

Если не видно глазами по waveform’ам, то прицепить эффект delay на одну из дорожек и подбирать задержку на слух.

Т.е. кидаем два файла на треки, нормализуем громкость до одинакового уровня, совмещаем по времени «на глаз», выравниваем по длительности, разворачиваем один трек по фазе, включаем отображение сонограмм и елозим delay’ем до приемлемого ушами результата. Сводим в один трек, ищем на сонограмме (с тюненым режимом отображения) яркие пятна. Получается херово, ну а что делать.

thesis ★★★★★
(06.05.26 10:20:00 MSK)
Последнее исправление: thesis 06.05.26 10:20:30 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 06.05.26 02:01:36 MSK

теоритически можно, найдя подобия в огибающих спектров обоих треков, дальше проанализировать фазовые сдвиги и т.д.

pfg ★★★★★
(06.05.26 10:25:54 MSK)

Ответ на: комментарий от CrX 06.05.26 02:09:04 MSK

Если вычитаемые звуковые файлы очень похожи, но не совпадают по фазе

Инвертируй фазу.

Был сдвиг на 1/4 периода, будет на 3/4.

Если там по времени сдвиг на пару сэмплов — просто визуально совмести в том же audacity.

Как в Audacity двигать без мыши? Руки трясутся, не попадаю.

У тебя с твоими JPEG то же самое же. Если одна картинка будет имеет какое-то смещение относительно другой (ну скажем, вправо на 3 пикселя и вниз на 5), то тоже всё твоё вычетание будет бесполезным, пока не совместишь.

С картинками хорошо видно, какова невязка и куда и на сколько двигать. Как визуализировать для звука?

question4 ★★★★★
(06.05.26 10:47:08 MSK) автор топика

Похожие темы