1

4

Перенося различную мета-информацию (например информацию о покрытии тестами, или комментарии) между немного разными комплектами исходников возникает желание идентифицировать строки не по номеру, который может легко сползти, а по какому-то идентификатору вычисленному из самой строки…

Но тут начинаются проблемы, потому что даже если за сам идентификатор принять саму строку, то срока вида

будет встречаться немыслимое количество раз, и ее идентификатор явно должен вычисляться не только из самой строки, но и из ее окружения… Быть каким-то составным, скорее…

Далее вопрос, не должен ли идентификатор содержать какую-то метрику позволяющую как-то оценить дельту между двумя строками по идентификатору. Чтобы можно было сказать что эта строка является немного отредактированной версией вот той. Возможно ли это чисто математически?

Нет ли какой-то метрики позволяющий оценить насколько строка «самобытна». Это скобка среди пробелов, или много разных слов. Чтобы можно было

Не решались ли подобные задачи ранее? Вдруг в недрах какого-нибудь git’а все уже придумано?

Где-бы почитать про разные метрики которые можно применить к текстовым объектам, в том числе с целью их идентификации… По каким ключевым словам искать? Мне однозначно не хватает базовой теории, а интернет полон искусственного интеллекта и блокчейна…

←	Клиент Https REST API

cmake, как заставить find_package искать только в поддиректории?

→

хэш от «номер + содержимое строки» - немного лучше. немного

осталось только придумать обратную фушкцию, чтобы по этому хэшу найти-таки нужную строку )

aol ★★★★★
(10.11.23 18:47:27 MSK)
Последнее исправление: aol 10.11.23 18:48:59 MSK (всего исправлений: 1)

Ответ на: комментарий от aol 10.11.23 18:47:27 MSK

Если строка сдвинется, то перестанет по этому алгоритму идентифицироваться вообще.

shaplov ★★★
(10.11.23 18:49:02 MSK) автор топика

Ответ на: комментарий от shaplov 10.11.23 18:49:02 MSK

так тебе надо наоборот? чтобы она независимо от положения в файле могла быть идентифицирована? ну, такоэ…

aol ★★★★★
(10.11.23 18:49:38 MSK)

Ответ на: комментарий от aol 10.11.23 18:49:38 MSK

надо.

При этом лучше всего либо опробированное решение, либо теория на основании которой это можно вдумчиво сделать…

shaplov ★★★
(10.11.23 18:50:32 MSK) автор топика

Ответ на: комментарий от shaplov 10.11.23 18:50:32 MSK

в качестве метрики «вас тут (не) стояло» можно использовать контекст - соседние строки сверху и снизу от изучаемой.

для проверки схожести - например, google://расстояние+левенштейна

aol ★★★★★
(10.11.23 18:53:58 MSK)

Удовлетворите любопытство, вам для чего такое понадобилось?

информацию о покрытии тестами, или комментарии

Как-то не вяжется с требуемой реализацией.

Посмотрите, как подсвечиваются diff’ы в коммитах, может это то что надо.

vvn_black ★★★★★
(10.11.23 22:12:22 MSK)
Последнее исправление: vvn_black 10.11.23 22:14:39 MSK (всего исправлений: 2)

есть dоxygen, который можно использовать без фанатизма - только для индексирования и анкеров.

То есть побыстрому парсить выхлоп doxygen на тему «вот класс/шаблон/метод», а нету ли к нему внешних заметок. Он ведь и в xml индексы делает и даже sqlite.

И собственный тег можно задать а-ля «\mark» и по индексу находить все или конкретный mark.

если нельзя текст курочить - тогда по семантике или синтаксису. Сильно вкурить clang, а лучше (проще+быстрее) взять любой syntax highligher - они почти все умеют отдавать xml; и помнить/строить свои внешние метки как XPath,XQuery по ним.

MKuznetsov ★★★★★
(11.11.23 03:54:52 MSK)

Списочек: https://en.wikipedia.org/wiki/String_metric

dataman ★★★★★
(11.11.23 07:06:24 MSK)

Ответ на: комментарий от dataman 11.11.23 07:06:24 MSK

Списочек: https://en.wikipedia.org/wiki/String_metric

Спасибо, да… Я этот список отталкиваясь от «Levenshtein distance» упомянутый выше уже нашел…

Более меня забавляет, что не находится вообще никакой информации о функциях сверки, позволяющих с точностью до коллизий оценивать расстояние между исходными элементами по значениям функций свертки…

Должен же хоть кто-то был с этим играться…

shaplov ★★★
(11.11.23 10:52:44 MSK) автор топика

Прошаренный коллега подсказал ключевое слово «Locality-Sensitive Hash»

shaplov ★★★
(11.11.23 16:36:03 MSK) автор топика

Какую-то херню и костыли вы хотите. Если у вас задача идентифицировать не строки а функции\методы (ну вы же не строки тестируете в коде, ну в самом деле же) то вам нужно парсить не строки, а сами сущности. Например функции\методы.

LLVM в зубы. А вообще выглядит так, как будто вы делаете какой-то самописный костыль для покрытия тестами. Вам сюда: https://www.browserstack.com/guide/code-coverage-tools

PPP328 ★★★★★
(11.11.23 16:53:04 MSK)

Ответ на: комментарий от PPP328 11.11.23 16:53:04 MSK

нет, у меня задача сделать контентно-зависимый идентификатор строки. Вне зависимости от того код ли это на Си или Война и Мир.

shaplov ★★★
(11.11.23 17:23:28 MSK) автор топика

Ответ на: комментарий от shaplov 11.11.23 10:52:44 MSK

никакой информации о функциях сверки,

Поправка: «функциях свёртки»

shaplov ★★★
(11.11.23 17:27:31 MSK) автор топика

Перенося различную мета-информацию (например информацию о покрытии тестами, или комментарии) между немного разными комплектами исходников

Я, честно говоря, так и не понял, зачем.

Nervous ★★★★★
(11.11.23 17:32:20 MSK)

Ответ на: комментарий от shaplov 11.11.23 17:23:28 MSK

Это даже гит не смог реализовать это без глюков. Какую задачу вы решаете? То что вы сказали это попытка что-то решить, а не сама хадача

PPP328 ★★★★★
(11.11.23 17:36:26 MSK)

Ответ на: комментарий от shaplov 11.11.23 17:23:28 MSK

у меня задача сделать контентно-зависимый идентификатор строки

взяли хэш от всех параметров контекста.

идентификатор строки? да.

контекстно-зависимый? да.

все, профит, не?

а если «не» - ты от нас что-то скрывааааешь!

olelookoe ★★★
(11.11.23 17:40:37 MSK)

Ответ на: комментарий от shaplov 11.11.23 16:36:03 MSK

LSH на arxiv.org, но не думаю, что он тут поможет.

dataman ★★★★★
(11.11.23 17:56:05 MSK)

Ну ты внятно задачу-то свою сформулируй.

Например, для такого определения ответ тривиален:

Назовём строкой упорядоченное множество символов, оканчивающихся символом '\n'. Существует ли функция отображения множества строк на множество натуральных чисел?

fluorite ★★★★★
(11.11.23 20:13:01 MSK)
Последнее исправление: fluorite 11.11.23 20:13:54 MSK (всего исправлений: 1)

Ответ на: комментарий от fluorite 11.11.23 20:13:01 MSK

Назовём строкой упорядоченное множество символов, оканчивающихся символом ‘\n’. Существует ли функция отображения множества строк на множество натуральных чисел?

такое, чтобы по результатом вычисления некой функции D() от полученных вышеуказанным способом двух натуральных чисел, можно было бы с точностью до коллизий оценить расстояние Липштейна между их оригиналами…

shaplov ★★★
(11.11.23 20:30:25 MSK) автор топика

Ответ на: комментарий от dataman 11.11.23 17:56:05 MSK

LSH на arxiv.org, но не думаю, что он тут поможет.

arxiv.org хорошая идея, спасибо. Сам не додумался. Тоже не уверен что поможет, но не значит что не надо пробовать.

shaplov ★★★
(11.11.23 20:31:20 MSK) автор топика

Ответ на: комментарий от PPP328 11.11.23 17:36:26 MSK

Это даже гит не смог реализовать это без глюков.

А известно как он это пробовал реализовать? Можете показать пальцем?

shaplov ★★★
(11.11.23 20:32:32 MSK) автор топика

Ответ на: комментарий от olelookoe 11.11.23 17:40:37 MSK

у меня задача сделать контентно-зависимый идентификатор строки

взяли хэш от всех параметров контекста.

Не контекста, а контента. Контент при этом может быть вырожденным, брать хеш только от него без мазы.

shaplov ★★★
(11.11.23 20:35:22 MSK) автор топика

Пусть у тебя есть класс. В классе есть метод. В методе есть, ну там, условие. Внутри условия есть присваивание.

Тогда строка обозначается как class(classname).method(methodname).if(ifNumber).assignment(a=5)

И вне зависимости от количества строк в файле, переноса в другой файл, переделывания даже части самого класса, такой идентификатор меняться не будет.

Я правильно понял, чего тебе надобно?

С Толстым сложнее, потому что там надо будет опираться на главы и абзацы, а они в общем случае могут уехать. Если же текст не сильно меняется, человечество уже пару тысяч лет использует указатели вида Мф:5.27.

Aceler ★★★★★
(11.11.23 20:49:33 MSK)

Ответ на: комментарий от Aceler 11.11.23 20:49:33 MSK

Я правильно понял, чего тебе надобно?

Нет.

Мне надо конструкцию вида

[HASH_N-1]-[HASH_N-2]-[HASH_N+1]-[HASH_N+2]-[LSH_N]-[HASH_N]

[HASH_N] - хеш самой строки

[HASH_N+-n] - хеши соседей чтобы зафиксирвоать в каком окружении строка находится (если HASH_N дает коллизию)

[LSH_N] - Locality-Sensitive Hash самой строки чтобы можно было найти строку подвергшуюся редактированию (тогда HASH_N уже не поможет)

Может быть еще и для контекста добавить LSH. А может быть только на одних LSH жить…

Но самое главное, я хочу теории… Чтобы не на пальцах это все прикидывать, а стоять на плечах великих. И уже там прикидывать на пальцах…

shaplov ★★★
(11.11.23 21:07:50 MSK) автор топика

Выше люди тоже недоумевают и похоже никто ответа не получил.

А какую задачу, собственно, хотим решить? Вот нашли вы искомую хеш-функцию, а делать вы с ней что потом будете?

anonymous7
(11.11.23 22:28:37 MSK)

Ответ на: комментарий от anonymous7 11.11.23 22:28:37 MSK

Метаиформацию информацию с ним ассоциировать:

Количество проходов по строке при запуске тестов (покрытие).
Букмарка с комментарием.
Информация выданная статическим анализатором.

Мало ли какую еще метаинформацию захочется прикрепить к конкретной строке текста, а потом переносить между разными версиями…

shaplov ★★★
(11.11.23 22:49:57 MSK) автор топика

Ответ на: комментарий от shaplov 11.11.23 22:49:57 MSK

А длинна идентификатора строки должна быть фиксирована? =)

LINUX-ORG-RU ★★★★★
(12.11.23 00:31:07 MSK)

По-моему из БД, в которой отдельная запись и есть «файл», вы никак не сделаете БД в которой записью будет «строка файла».

Так-то были такие файловые системы раньше. В той же Pick Operating System.

Но там целая ОС вокруг этого по сути крутилась.

Toxo2 ★★★★
(12.11.23 05:21:57 MSK)

Ответ на: комментарий от Aceler 11.11.23 20:49:33 MSK

Тогда строка обозначается как class(classname).method(methodname).if(ifNumber).assignment(a=5)

При таком подходе куски программы:

x = x + 2;
x = x * 2;

x = x * 2;
x = x + 2;

считаются идентичными. Тоже не хорошо, наверное.

monk ★★★★★
(12.11.23 09:17:31 MSK)

Ответ на: комментарий от shaplov 11.11.23 21:07:50 MSK

Но самое главное, я хочу теории… Чтобы не на пальцах это все прикидывать, а стоять на плечах великих. И уже там прикидывать на пальцах…

В 1С проверка идёт по «нормализованным строкам». То есть без учёта пробелов до и после.

И блоки сравниваются по функциям + дополнительно отслеживается переименование функций (если старое имя пропадает, ищет среди новых, вдруг есть с очень похожим телом).

Даёт результаты заметно лучше, чем у git и kdiff3.

Если переводить на твою задачу, то для каждой строки вводишь GUID и при изменении текста тебе нужен старый текст и новый. В новом ищешь сопоставления строк к старому. Если строка в старом тексте не найдена, даёшь ей новый GUID.

Если про текст вообще ничего сказать нельзя, бери алгоритм из diff.

monk ★★★★★
(12.11.23 09:23:28 MSK)

Ответ на: комментарий от shaplov 10.11.23 18:50:32 MSK

Aceler уже предложил в каком то виде.

Универсальное может что то и существует, я не слышал. Но для програмного кода, на правах идеи.

Надо строить абстрактное дерево как это делают компиляторы. Это позволит соотносить строки с узлами дерева, как бы они не сдвигались.

Т.е. если хочется понимать что это одна и та же строка «по смыслу» - ну, надо вычислять этот смысл, собственно. Мне так кажется.

Комменты в программе связывать с узлом программы. Если хочется каких-то фич для текста дополнительных - добавлять их из работы с текстом.

AndreyKl ★★★★★
(12.11.23 09:38:27 MSK)
Последнее исправление: AndreyKl 12.11.23 09:47:54 MSK (всего исправлений: 1)

Ответ на: комментарий от LINUX-ORG-RU 12.11.23 00:31:07 MSK

А длинна идентификатора строки должна быть фиксирована? =)

Не обязательно.

Более того, вырожденный случай, когда идентификатор равен строке или содержит ее – рассматриваем, как минимум для теоретической ясности.

shaplov ★★★
(12.11.23 10:27:57 MSK) автор топика

Ответ на: комментарий от AndreyKl 12.11.23 09:38:27 MSK

Но для C++ AST-дерево будет зависеть от того, как разрезолвятся макросы и шаблоны.

static_lab ★★★★★
(12.11.23 14:52:49 MSK)

Ответ на: комментарий от static_lab 12.11.23 14:52:49 MSK

да, по большому счёту нужно писать бекэнд для компилятора, я понимаю.

ну ТС ведь хочет стоять на плечах гигантов :)

AndreyKl ★★★★★
(12.11.23 17:50:37 MSK)

Ответ на: комментарий от monk 12.11.23 09:17:31 MSK

Я не предлагал решение. Я понять пытался, что ему надо :-)

Aceler ★★★★★
(12.11.23 21:53:15 MSK)

похоже вам поручили рисовать 7 перпендикулярных линий, смысл хеша как раз в зависимости от внутреннего состояния, а не от внешнего. Задачи локализования строки решаются как «полный путь файла + номер строки» или бывает еще «неймспейс + сигнатура»;

Syncro ★★★★★
(13.11.23 09:04:42 MSK)

ключевые слова – diff.

читать – https://neil.fraser.name/writing/diff/myers.pdf

anonymous
(14.11.23 22:41:30 MSK)

Ответ на: комментарий от anonymous 14.11.23 22:41:30 MSK

читать – https://neil.fraser.name/writing/diff/myers.pdf

Круто.

А как была добыта ссылка на этот документ?

shaplov ★★★
(15.11.23 00:29:29 MSK) автор топика

Ответ на: комментарий от PPP328 11.11.23 16:53:04 MSK

Если у вас задача идентифицировать не строки а функции\методы (ну вы же не строки тестируете в коде, ну в самом деле же) то вам нужно парсить не строки, а сами сущности. Например функции\методы.

LLVM в зубы.

Совершенно не обязательно. Тот же git-diff использует обычные регулярки для отслеживания границ функций.

annulen ★★★★★
(15.11.23 03:25:14 MSK)
Последнее исправление: annulen 15.11.23 03:25:49 MSK (всего исправлений: 1)

Ответ на: комментарий от annulen 15.11.23 03:25:14 MSK

Git diff прекрасно ломается, считая что какой-то файл «перемисан на 90%», или «перемещен», когда вы создаете рядом другой. Кучу раз ломались скрипты из-за этого

PPP328 ★★★★★
(15.11.23 10:50:42 MSK)

Ответ на: комментарий от PPP328 15.11.23 10:50:42 MSK

Да, но это из-за используемой метрики «похожести», а не из-за неточного разделения диффов по функциям.

annulen ★★★★★
(15.11.23 11:29:02 MSK)

Ответ на: комментарий от PPP328 15.11.23 10:50:42 MSK

Ну и, возможно, из-за того, что git явно не записывает информацию о перемещениях/переименованиях, а восстанавливает её на ходу. Но у этого подхода есть и определённые плюсы.

annulen ★★★★★
(15.11.23 11:30:35 MSK)

Ответ на: комментарий от shaplov 15.11.23 00:29:29 MSK

Круто.

Есть круче. :)

https://github.com/maxbachmann/rapidfuzz-cpp

dataman ★★★★★
(15.11.23 11:38:13 MSK)

Не особо понял чего тебе нужно.

По поводу расстояний между строками тебе выше уже ответили, правда учти, что некоторые метрики это NP-полные задачи…

Примеры реализации тоже вроде бросили: git, diff…

Но как тебе это все поможет? Ведь с т.з. тестирования, если код изменился, то его надо снова тестировать, единственное, что ты можешь выкинуть из строк – это комментарии, поэтому тебе надо сохранять информацию о неизменности многострочного блока. Что приводит к мысли, что у тебя есть просто поиск вхождения подстроки (оттестированные блоки) в строку (весь код).

soomrack ★★★★
(15.11.23 11:44:48 MSK)
Последнее исправление: soomrack 15.11.23 11:50:46 MSK (всего исправлений: 1)

Ответ на: комментарий от dataman 15.11.23 11:38:13 MSK

Круто.

Есть круче. :)

https://github.com/maxbachmann/rapidfuzz-cpp

Слон плохой, справка хороший!

Там есть папка docs/literature, вот в ней судя по всему круто, да…

shaplov ★★★
(15.11.23 13:20:50 MSK) автор топика

Ответ на: комментарий от shaplov 11.11.23 22:49:57 MSK

Количество проходов по строке при запуске тестов (покрытие).

Информация выданная статическим анализатором.

Йок, не надо это переносить, это надо заново вычислить с кешем.

t184256 ★★★★★
(15.11.23 23:43:39 MSK)

Ответ на: комментарий от Aceler 12.11.23 21:53:15 MSK

Расстрелять ногу.

t184256 ★★★★★
(15.11.23 23:44:16 MSK)

23 декабря 2023 г.

Возможно тебе надо это https://en.wikipedia.org/wiki/Locality-sensitive_hashing

anonymous_incognito ★★★★★
(23.12.23 15:06:37 MSK)

←	Клиент Https REST API

Development

cmake, как заставить find_package искать только в поддиректории?

→

Похожие темы