LINUX.ORG.RU
ФорумTalks

Программа ассоциаций

 , , ,


0

1

Привет!

Ищу ПО, которое умеет выстраивать ассоциации по двум столбцам.
Было бы очень хорошо, если бы можно было выбирать и исправлять предложенные варианты, а в будущем он именно их и предлагал.

Например:

В столбце А, построчно выведены все возможные для ассоциаций значения, вида «шла саша по дороге длинной 0,5 км и грызла сушку»
В столбце B, значения с содержимым вида «саша шла 500 м и грызла»
В столбце С, у нас показывает ассоциированное значение из А к B, т.е. «шла саша по дороге длинной 0,5 км и грызла сушку»

Табличный документ для наглядности https://imgur.com/a/8qPwGxZ

Спасибо!

Ответ на: комментарий от Shadow

Fuzzy Lookup - класс
Быстрым тестом показал результат 5 из 6. Жаль, что только не умеет запоминать правильные значения. Попробую еще потюнить

Спасибо

admucher ★★
() автор топика
Ответ на: комментарий от Shadow

https://ru.wikipedia.org/wiki/Расстояние_Левенштейна

Насколько помню - это жутко тормознутый алгоритм требующий тонны памяти, его можно применять разве что в образовательных целях для понимания сути.

Да и точность/гибкость там не совсем та что нужна, например, в риалтайм поисковых и распознающих в тексте ошибки системах.

HIS
()

А зачем тебе? Это для курсового в институте какого нибудь или для бизнес применения?

HIS
()
Ответ на: комментарий от admucher

Ну допили на VBA обвязку.

*тут моё нытьё про тех, кто говорит, что excel не нужен*

Shadow ★★★★★
()
Ответ на: комментарий от Shadow

Вообще не тормозной даже на VBA или питоне.

Это смотря какие объёмы обсуждаются и что считается не тормозной.

Для меня объёмы - это миллионы записей с сотнями символов каждая и скорость срабатывания не более 0.1 секунды. Это можно приближать к не тормозной.

HIS
()
Ответ на: комментарий от HIS

А. ну автору же чтто-то типа таблички надо. Мне кажется, ему левенштейна после орфографического разбора хватит за глаза.

Shadow ★★★★★
()
Ответ на: комментарий от Shadow

Мне интересно узнать каковы характеристики по объёмам данных и времени исполнения считаются не тормозными в твоём варианте.

HIS
()
Ответ на: комментарий от Shadow

Я у автора спросил, что именно нужно. Жду ответа. Таблички - ну например таблички БД с миллионами записей :)

HIS
()
Ответ на: комментарий от Shadow

Да. На современных компах распараллелив так можно. Но это жутко долго если для бизнес вариантов в риалтайм системах.

HIS
()
Ответ на: комментарий от Shadow

Напомню, что гибкость там очень сильно страдает. Оно работает только с не очень большими расхождениями в написании.

Грубо говоря пару букв не правильно написано или пропущено в одном предложении. Не более. Дальше идёт просто жуть по времени и объёмам.

HIS
()
Ответ на: комментарий от Shadow

Исправлюсь. Этот алгоритм вообще не работает с неправильно написанными символами. Только с пропущенными и переставленными. Это вообще бесполезно в реальной практике набора текстов людьми.

HIS
()
Ответ на: комментарий от admucher

Указанный пример в топике весьма сложен даже для не подготовленного к размерностям расстояний человека. Он не узнает из «эфира», что «500 метров» - это те же «0,5 километра», если он не знает что такое метры или километры например, а только в шагах собственных например меряет всё. Это гораздо более сложная структура должна быть и невероятно обученная всяким не тривиальным вещам, которые сами собой не вытекают из трёх фраз в которых написано 3 разных варианта про «500 метров».

Можно вариант примера привести ближе к требующемуся?

HIS
()
Ответ на: комментарий от admucher

Например такое раздуплить не проблема: Хвалюсь: система нечеткого поиска. (комментарий)

Это мой друг написал статью по нашей демо разработке по поиску подобий в словах и предложениях.

Работала на древних компах весьма шустро даже в однопотоке (не оптимизиовано и с кучей недоработок по ассоциации символов). Доли секунды на сотнях тысяч записей. Было реализовано примерно 5% от моих разрабток алгоритмов и мой друг сделал несколько ошибок в реализации на то время. В нете нашли какой-то убогий словарь слов (что-то около 100 тысяч пар русско-английского), который наспех отпарсили тоже с ошибками.

Сделали демку.

HIS
()
Ответ на: комментарий от HIS

Бизнес, продовольственные товары.

В текущем виде (только ассоциирование), это вряд-ли будет применяться, т.к. это всего-лишь один из шагов. Я это все для изучения, какие варианты бывают.

Чтобы это действительно было полезно, нужно комплексное решение, начиная с OCR и заканчивая допиливанием 1С. Думаю, что писать это с нуля, а потом поддерживать, нерентабельно.
Логичным решением здесь будет, купить что-то на основе FlexiCapture

admucher ★★
() автор топика
Ответ на: комментарий от admucher

OCR + нечёткий поиск с учётом вхождений слов в предложения с вхождением слов с ошибками - не проблема. Вот интеграция с 1С - тут могут быть вопросы. Хотя если просто заливать новые товары или просто делать списки товаров для продажи, например при сканировании бар кодов при покупке клиентами - это не очень сложно.

Саму бухгалтерию я не берусь обрабатывать.

И да, очень сильно ничего не описано по сути что требуется :)

HIS
()
Ответ на: комментарий от admucher

FlexiCapture

Не самое плохое решение. У ни конечно тормознутый OCR с некоторыми изъянами и не настолько продвинутое решение по нечёткому поиску в большом массиве данных из-за чего качество распознавания у них к стати и страдает тоже.

Но да оно вполне рабочее.

HIS
()
Ответ на: комментарий от HIS

А я и не описывал)

Если интересно, то логика такая:
Сканируется бумажная накладная=> OCR => Происходит сопоставление наименований (с количеством и ценой) из накладной с имеющейся базой => переносится в документ 1С (так же, с количеством и ценой)

admucher ★★
() автор топика
Ответ на: комментарий от HIS

Я не пробовал, но я его упомянул из-за того, что на его основе уже есть готовые хотелки, завязанные именно на 1С и делают, судя по описанию от и до, только деньги плати

admucher ★★
() автор топика
Ответ на: комментарий от admucher

Тут важно следующее. Формат предоставления данных в накладной, от этого зависит скорость и качество OCR. Сопоставление распознанного с БД это уже практически не сложно и очень быстро, не важно от количества данных в общем и даже с наличием ошибок при распознавании. Перенос В 1С - совсем пустяки - главное тоже знать формат.

HIS
()
Ответ на: комментарий от admucher

делают, судя по описанию от и до, только деньги плати

Да. За бесплатно только в нете троллят и то не всегда ;)

HIS
()
Ответ на: комментарий от HIS

Формат предоставления данных в накладной

В случае с ABBYY вроде все ок. Кормлю периодически FoxiReader такими документами и с таблицами (99% накладных) он справляется, не смотря на низкое качество скана. Если брать решения на FlexiCapture, то он еще умеет и в шаблоны

admucher ★★
() автор топика
Ответ на: комментарий от admucher

Да. Шаблоны это какраз и есть фишка этой FlexiCapture. Иначе сути нет.

не смотря на низкое качество скана

А это какраз очень относительное понятие. :)

HIS
()
Ответ на: комментарий от quester

Для КО специально. Самая загвоздка в OCR и в человеческом факторе.

До сих пор на рынок никто не вывел OCR сравнимый со слепым алкашём-бомжём. Это факт. Но это не значит, что такого нет в недрах лабораторий.

Второе - это факт, что люди в своём большинстве почти всегда очепятываются в разных вариациях. Против этого бороться можно только статистическим анализом и поиском подобий.

HIS
()

Если тебя удовлетворяет АббИИ зачем ты тогда спрашиваешь здесь?

Бесплатно решения такого уровня никто не предлагает. Это десятки тысяч человекочасов высококвалифицированных инженеров.

Просто интересно, что ты ожидал найти? :)

HIS
()
Ответ на: комментарий от admucher

У аби к стати давно есть подобные комплексные решения с шаблонами и т.п.

Я не то чтобы рекламирую их, они мне в общем то вполне конкуренты весьма сильные. Когда у них было уже всё развито, я только разбирался, что нужно для рынка. Но к моему счастью, пока нет ничего подобного, что я разрабатываю по точности, скорости и охвату вариаций в распознавании.

HIS
()
Ответ на: комментарий от admucher

заканчивая допиливанием 1С

ЕМНИП в последних УТ есть проверки на дубли товаров. Вызываются при сохранении нового элемента справочника Номенклатуры. Сделано как-то на их расширенном поиске.

Ну т.е. тебе ничего не мешает сделать свою БД с API (хоть REST), реализовать там такой же механизм, загонять туда свои строки и сравнивать/искать.

bvn13 ★★★★★
()
Последнее исправление: bvn13 (всего исправлений: 1)
Ответ на: комментарий от bvn13

в последних УТ есть проверки на дубли товаров

Появилось после перехода на новую основу? Я с розницей работаю, но пока на прошлой основе, там такого (еще) нет. Обновление планирую в конце месяца

не мешает сделать свою БД с API

мешает отсутствие данных скиллов)

на их расширенном поиске

Поиск у них, кстати, немного туговат. Иногда на запрос (с потолка беру, для примера) «мороженое» выведет «молоко», а бывает, на «ванильный» не выведет «ваниль»

admucher ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.