Программа ассоциаций

excel, ассоциация, нейронные сети, таблицы

0

1

Привет!

Ищу ПО, которое умеет выстраивать ассоциации по двум столбцам.
Было бы очень хорошо, если бы можно было выбирать и исправлять предложенные варианты, а в будущем он именно их и предлагал.

Например:

В столбце А, построчно выведены все возможные для ассоциаций значения, вида «шла саша по дороге длинной 0,5 км и грызла сушку»
В столбце B, значения с содержимым вида «саша шла 500 м и грызла»
В столбце С, у нас показывает ассоциированное значение из А к B, т.е. «шла саша по дороге длинной 0,5 км и грызла сушку»

Табличный документ для наглядности https://imgur.com/a/8qPwGxZ

Спасибо!

Ссылка

← Состоялся релиз GCC 9.1.0

И настал апокалипсис... →

https://ru.wikipedia.org/wiki/Расстояние_Левенштейна

https://www.microsoft.com/en-us/download/details.aspx?id=15011

Shadow ★★★★★
(04.05.19 17:23:35 MSK)

Глянь в системах анализа текстов ©.

Или сотвори сам в Apache OpenNLP ©.

quickquest ★★★★★
(04.05.19 19:27:28 MSK)

Ответ на: комментарий от Shadow 04.05.19 17:23:35 MSK

Fuzzy Lookup - класс
Быстрым тестом показал результат 5 из 6. Жаль, что только не умеет запоминать правильные значения. Попробую еще потюнить

Спасибо

admucher ★★
(04.05.19 20:40:39 MSK) автор топика

Ответ на: комментарий от quickquest 04.05.19 19:27:28 MSK

Умений не хватит, но спасибо

admucher ★★
(04.05.19 20:41:08 MSK) автор топика

Ссылка

Ответ на: комментарий от Shadow 04.05.19 17:23:35 MSK

https://ru.wikipedia.org/wiki/Расстояние_Левенштейна

Насколько помню - это жутко тормознутый алгоритм требующий тонны памяти, его можно применять разве что в образовательных целях для понимания сути.

Да и точность/гибкость там не совсем та что нужна, например, в риалтайм поисковых и распознающих в тексте ошибки системах.

HIS
(04.05.19 20:41:15 MSK)

А зачем тебе? Это для курсового в институте какого нибудь или для бизнес применения?

HIS
(04.05.19 21:18:47 MSK)

Ссылка

Ответ на: комментарий от HIS 04.05.19 20:41:15 MSK

Вообще не тормозной даже на VBA или питоне.

Shadow ★★★★★
(04.05.19 21:35:08 MSK)

Ответ на: комментарий от admucher 04.05.19 20:40:39 MSK

Ну допили на VBA обвязку.

*тут моё нытьё про тех, кто говорит, что excel не нужен*

Shadow ★★★★★
(04.05.19 21:36:08 MSK)

Ссылка

Ответ на: комментарий от Shadow 04.05.19 21:35:08 MSK

Вообще не тормозной даже на VBA или питоне.

Это смотря какие объёмы обсуждаются и что считается не тормозной.

Для меня объёмы - это миллионы записей с сотнями символов каждая и скорость срабатывания не более 0.1 секунды. Это можно приближать к не тормозной.

HIS
(04.05.19 21:57:07 MSK)

Ответ на: комментарий от HIS 04.05.19 21:57:07 MSK

А. ну автору же чтто-то типа таблички надо. Мне кажется, ему левенштейна после орфографического разбора хватит за глаза.

Shadow ★★★★★
(04.05.19 22:02:09 MSK)

Ответ на: комментарий от Shadow 04.05.19 21:35:08 MSK

Мне интересно узнать каковы характеристики по объёмам данных и времени исполнения считаются не тормозными в твоём варианте.

HIS
(04.05.19 22:02:10 MSK)

Ответ на: комментарий от HIS 04.05.19 22:02:10 MSK

сотня тысяч за пару минут, например.

Shadow ★★★★★
(04.05.19 22:02:47 MSK)

Ответ на: комментарий от Shadow 04.05.19 22:02:09 MSK

Я у автора спросил, что именно нужно. Жду ответа. Таблички - ну например таблички БД с миллионами записей :)

HIS
(04.05.19 22:03:36 MSK)

Ответ на: комментарий от Shadow 04.05.19 22:02:47 MSK

Да. На современных компах распараллелив так можно. Но это жутко долго если для бизнес вариантов в риалтайм системах.

HIS
(04.05.19 22:05:09 MSK)

Ссылка

Ответ на: комментарий от Shadow 04.05.19 22:02:47 MSK

Напомню, что гибкость там очень сильно страдает. Оно работает только с не очень большими расхождениями в написании.

Грубо говоря пару букв не правильно написано или пропущено в одном предложении. Не более. Дальше идёт просто жуть по времени и объёмам.

HIS
(04.05.19 22:08:15 MSK)

Ссылка

Ответ на: комментарий от Shadow 04.05.19 22:02:47 MSK

Исправлюсь. Этот алгоритм вообще не работает с неправильно написанными символами. Только с пропущенными и переставленными. Это вообще бесполезно в реальной практике набора текстов людьми.

HIS
(04.05.19 22:36:23 MSK)

Ссылка

Ответ на: комментарий от HIS 04.05.19 22:03:36 MSK

Очень мало

10 тысяч в справочнике, строк 20 найти

admucher ★★
(04.05.19 22:48:20 MSK) автор топика

Ответ на: комментарий от admucher 04.05.19 22:48:20 MSK

Указанный пример в топике весьма сложен даже для не подготовленного к размерностям расстояний человека. Он не узнает из «эфира», что «500 метров» - это те же «0,5 километра», если он не знает что такое метры или километры например, а только в шагах собственных например меряет всё. Это гораздо более сложная структура должна быть и невероятно обученная всяким не тривиальным вещам, которые сами собой не вытекают из трёх фраз в которых написано 3 разных варианта про «500 метров».

Можно вариант примера привести ближе к требующемуся?

HIS
(04.05.19 22:58:00 MSK)

Ссылка

Ответ на: комментарий от admucher 04.05.19 22:48:20 MSK

Например такое раздуплить не проблема: Хвалюсь: система нечеткого поиска. (комментарий)

Это мой друг написал статью по нашей демо разработке по поиску подобий в словах и предложениях.

Работала на древних компах весьма шустро даже в однопотоке (не оптимизиовано и с кучей недоработок по ассоциации символов). Доли секунды на сотнях тысяч записей. Было реализовано примерно 5% от моих разрабток алгоритмов и мой друг сделал несколько ошибок в реализации на то время. В нете нашли какой-то убогий словарь слов (что-то около 100 тысяч пар русско-английского), который наспех отпарсили тоже с ошибками.

Сделали демку.

HIS
(04.05.19 23:27:37 MSK)

Ссылка

Ответ на: комментарий от admucher 04.05.19 22:48:20 MSK

Если для бизнес применения. Можем обсудить и сделать реализацию на заказ.

HIS
(05.05.19 03:51:02 MSK)

Ответ на: комментарий от HIS 05.05.19 03:51:02 MSK

Бизнес, продовольственные товары.

В текущем виде (только ассоциирование), это вряд-ли будет применяться, т.к. это всего-лишь один из шагов. Я это все для изучения, какие варианты бывают.

Чтобы это действительно было полезно, нужно комплексное решение, начиная с OCR и заканчивая допиливанием 1С. Думаю, что писать это с нуля, а потом поддерживать, нерентабельно.
Логичным решением здесь будет, купить что-то на основе FlexiCapture

admucher ★★
(05.05.19 08:48:47 MSK) автор топика

Ответ на: комментарий от admucher 05.05.19 08:48:47 MSK

OCR + нечёткий поиск с учётом вхождений слов в предложения с вхождением слов с ошибками - не проблема. Вот интеграция с 1С - тут могут быть вопросы. Хотя если просто заливать новые товары или просто делать списки товаров для продажи, например при сканировании бар кодов при покупке клиентами - это не очень сложно.

Саму бухгалтерию я не берусь обрабатывать.

И да, очень сильно ничего не описано по сути что требуется :)

HIS
(05.05.19 09:18:13 MSK)

Ответ на: комментарий от admucher 05.05.19 08:48:47 MSK

FlexiCapture

Не самое плохое решение. У ни конечно тормознутый OCR с некоторыми изъянами и не настолько продвинутое решение по нечёткому поиску в большом массиве данных из-за чего качество распознавания у них к стати и страдает тоже.

Но да оно вполне рабочее.

HIS
(05.05.19 09:27:07 MSK)

Ответ на: комментарий от HIS 05.05.19 09:18:13 MSK

А я и не описывал)

Если интересно, то логика такая:
Сканируется бумажная накладная=> OCR => Происходит сопоставление наименований (с количеством и ценой) из накладной с имеющейся базой => переносится в документ 1С (так же, с количеством и ценой)

admucher ★★
(05.05.19 09:28:11 MSK) автор топика

Ответ на: комментарий от HIS 05.05.19 09:27:07 MSK

Я не пробовал, но я его упомянул из-за того, что на его основе уже есть готовые хотелки, завязанные именно на 1С и делают, судя по описанию от и до, только деньги плати

admucher ★★
(05.05.19 09:30:14 MSK) автор топика

Ответ на: комментарий от admucher 05.05.19 09:28:11 MSK

Тут важно следующее. Формат предоставления данных в накладной, от этого зависит скорость и качество OCR. Сопоставление распознанного с БД это уже практически не сложно и очень быстро, не важно от количества данных в общем и даже с наличием ошибок при распознавании. Перенос В 1С - совсем пустяки - главное тоже знать формат.

HIS
(05.05.19 09:33:55 MSK)

Ответ на: комментарий от admucher 05.05.19 09:30:14 MSK

делают, судя по описанию от и до, только деньги плати

Да. За бесплатно только в нете троллят и то не всегда ;)

HIS
(05.05.19 09:39:41 MSK)

Ссылка

Ответ на: комментарий от HIS 05.05.19 09:33:55 MSK

Формат предоставления данных в накладной

В случае с ABBYY вроде все ок. Кормлю периодически FoxiReader такими документами и с таблицами (99% накладных) он справляется, не смотря на низкое качество скана. Если брать решения на FlexiCapture, то он еще умеет и в шаблоны

admucher ★★
(05.05.19 09:52:46 MSK) автор топика

Ответ на: комментарий от admucher 05.05.19 09:52:46 MSK

Да. Шаблоны это какраз и есть фишка этой FlexiCapture. Иначе сути нет.

не смотря на низкое качество скана

А это какраз очень относительное понятие. :)

HIS
(05.05.19 10:03:31 MSK)

Ссылка

См тут еще:

http://aot.ru/

cvs-255 ★★★★★
(05.05.19 13:14:20 MSK)

Ссылка

Ответ на: комментарий от admucher 05.05.19 08:48:47 MSK

Бизнес, продовольственные товары.

yandex direct?

quester ★★
(05.05.19 23:01:03 MSK)

Ответ на: комментарий от quester 05.05.19 23:01:03 MSK

Как это связанно?

admucher ★★
(06.05.19 02:20:06 MSK) автор топика

Ответ на: комментарий от admucher 06.05.19 02:20:06 MSK

там нужно формировать словарь поиска.

quester ★★
(06.05.19 17:13:41 MSK)

Ответ на: комментарий от quester 06.05.19 17:13:41 MSK

КО? ;)

Конечно да.

HIS
(06.05.19 21:18:34 MSK)

Ответ на: комментарий от quester 06.05.19 17:13:41 MSK

Для КО специально. Самая загвоздка в OCR и в человеческом факторе.

До сих пор на рынок никто не вывел OCR сравнимый со слепым алкашём-бомжём. Это факт. Но это не значит, что такого нет в недрах лабораторий.

Второе - это факт, что люди в своём большинстве почти всегда очепятываются в разных вариациях. Против этого бороться можно только статистическим анализом и поиском подобий.

HIS
(06.05.19 21:28:42 MSK)

Ссылка

Ответ на: комментарий от HIS 06.05.19 21:18:34 MSK

Конечно да.

Это был не вопрос, а ответ.

quester ★★
(07.05.19 11:55:53 MSK)

Ответ на: комментарий от quester 07.05.19 11:55:53 MSK

HIS
(07.05.19 12:11:11 MSK)

Ссылка

Если тебя удовлетворяет АббИИ зачем ты тогда спрашиваешь здесь?

Бесплатно решения такого уровня никто не предлагает. Это десятки тысяч человекочасов высококвалифицированных инженеров.

Просто интересно, что ты ожидал найти? :)

HIS
(07.05.19 14:30:55 MSK)

Ответ на: комментарий от HIS 07.05.19 14:30:55 MSK

Аббии только распознает, мне же нужно (уже не особо) то, что сопоставляет уже готовый текст. Например, Fuzzy Lookup Программа ассоциаций (комментарий)

admucher ★★
(07.05.19 14:38:52 MSK) автор топика

Ответ на: комментарий от admucher 07.05.19 14:38:52 MSK

Fuzzy Lookup - бесплатно?

HIS
(07.05.19 16:10:42 MSK)

Ответ на: комментарий от HIS 07.05.19 16:10:42 MSK

Ну да. Аддон к экселю. Да и не было в условии бесплатно

admucher ★★
(07.05.19 16:13:49 MSK) автор топика

Ответ на: комментарий от admucher 07.05.19 16:13:49 MSK

У аби к стати давно есть подобные комплексные решения с шаблонами и т.п.

Я не то чтобы рекламирую их, они мне в общем то вполне конкуренты весьма сильные. Когда у них было уже всё развито, я только разбирался, что нужно для рынка. Но к моему счастью, пока нет ничего подобного, что я разрабатываю по точности, скорости и охвату вариаций в распознавании.

HIS
(07.05.19 16:34:43 MSK)

Ссылка

Ответ на: комментарий от admucher 05.05.19 08:48:47 MSK

заканчивая допиливанием 1С

ЕМНИП в последних УТ есть проверки на дубли товаров. Вызываются при сохранении нового элемента справочника Номенклатуры. Сделано как-то на их расширенном поиске.

Ну т.е. тебе ничего не мешает сделать свою БД с API (хоть REST), реализовать там такой же механизм, загонять туда свои строки и сравнивать/искать.

bvn13 ★★★★★
(07.05.19 18:02:46 MSK)
Последнее исправление: bvn13 07.05.19 18:03:52 MSK (всего исправлений: 1)

Ответ на: комментарий от bvn13 07.05.19 18:02:46 MSK

в последних УТ есть проверки на дубли товаров

Появилось после перехода на новую основу? Я с розницей работаю, но пока на прошлой основе, там такого (еще) нет. Обновление планирую в конце месяца

не мешает сделать свою БД с API

мешает отсутствие данных скиллов)

на их расширенном поиске

Поиск у них, кстати, немного туговат. Иногда на запрос (с потолка беру, для примера) «мороженое» выведет «молоко», а бывает, на «ванильный» не выведет «ваниль»

admucher ★★
(07.05.19 23:20:06 MSK) автор топика