Извлечение фактов из неструктурированного текста

machine learning, анализ данных, распознавание текста

1

2

Есть текст сообщений.

Вопрос: можно ли извлечь «факты» в «нормализованной форме» из такого текста с помощью автоматизированного лингвистического анализа? Тематика узкая - фитнес.

Извлекать нужно: виды упражнений, информацию о питании, вес (массу), время

Или лучше regexов понаписать и поиск по известным словам?

Сообщения такого плана:

Вес 56 килограммов.
Взвесился 65 килограмм
Взвесилась только что, 54 кило
Масса 65 килограмм
Пожал 90, два подхода по 8 раз.
Сегодня в обед съела салат из томатов и огурцов со сметаной, чай, бутерброд с колбасой
Прием пищи: макароны по-флотски, чай, суп с фрикадельками
Вчера съела торт кремовый две тарелки
Съел салат весенний 200 грамм. В нём 200 килокалорий на 100 граммов.
Съел утром 200 килокалорий
Вечером на обед были язычки колибри. В них 80 грамм углеводов, 10 граммов белка, жиров 5 грамм и 2 гр. золы. Всего 36 калорий
Манная каша - 56 калорий
жим лежа 60 пять по шесть
эллипс 8 минут за 7.55
блок пять по десять 45,45,45,45,40
трицепс 40кг 3 по 10
жим пустой гриф 1 на 30
приседы 3х6 60кг + 2х6 65кг

Ссылка

← Хочу недодекокомпилятор в сишечку

numpy masked-arrays →

← 1 2 →

Или иметь мозги с нейронкой, или регами. Готового софта я не знаю - я бы за ml взялся. Ну наклепай на регах.

cnupm ★
(22.03.17 19:04:40 MSK)

Ответ на: комментарий от cnupm 22.03.17 19:04:40 MSK

я бы за ml взялся. Ну наклепай на регах.

А зачем пушкой по воробьям то стрелять, если задача на регах решается? Ради спортивного интереса что-ли?

aiabout
(22.03.17 19:48:59 MSK)

Ответ на: комментарий от aiabout 22.03.17 19:48:59 MSK

если задача на регах решается?

Регекспами получится же не очень?

«Хотела съесть кило мяса, а съела 3 морковки» - как посчитается? мясо, морковь, 3 килокалории?

С другой стороны, можно неоднозначные фразы давать человеку на проверку

Интересно, такое щас кто-нибудь умеет нормально парсить роботами?

Deleted
(22.03.17 20:01:34 MSK)

Ответ на: комментарий от Deleted 22.03.17 20:01:34 MSK

Просто Вы написали «или - или», я подумал что Вы рассматриваете регексы как альтернативу. А то что Вы пишете, это слишком трудная задача, то что там про ИИ говорят, это все сказки, нет никаких реальных достижений там по распознаванию текста.

Почему нельзя заставлять пользователя заставлять строгие формы, где нет неоднозначности?

aiabout
(22.03.17 20:19:01 MSK)

Ответ на: комментарий от aiabout 22.03.17 20:19:01 MSK

заставлять строгие формы

заставлять заполнять строгие формы //fixed

aiabout
(22.03.17 20:20:34 MSK)

Ссылка

А сколько этих сообщений всего?

psv1967 ★★★★★
(22.03.17 20:20:46 MSK)

Ссылка

Приходится констатировать, что пошла очередная мода на ИИ

~~dave~~ ★★★★★
(22.03.17 20:37:12 MSK)

Ответ на: комментарий от dave 22.03.17 20:37:12 MSK

А когда была предыдущая?

PS: это же современный тренд: не осилил алгоритм - натренеруй нейросеть.

~~RazrFalcon~~ ★★★★★
(22.03.17 20:45:21 MSK)

Ответ на: комментарий от Deleted 22.03.17 20:01:34 MSK

Интересно, такое щас кто-нибудь умеет нормально парсить роботами?

Яндекс Гугль Еще тысяча фраз

А что? Многие умеют, вопрос в том, что автор может в адекватные сроки подкинуть. По егу топику - только реги.

cnupm ★
(22.03.17 20:46:22 MSK)

Ответ на: комментарий от cnupm 22.03.17 20:46:22 MSK

Сроков нет - нужно принципиальную возможность оценить.

У яндекса библиотека даже на гитхабе для такой задачиесть: тамито парсер называется.

Про заставлять заполнять строгие формы по этой теме есть личный опыт - меня хватило на месяц. Хочется текст наговаривать...

~~ahdenchik~~ ★
(22.03.17 20:55:40 MSK) автор топика

Ответ на: комментарий от ahdenchik 22.03.17 20:55:40 MSK

сколько_у_тебя_таких_фраз?

psv1967 ★★★★★
(22.03.17 21:00:50 MSK)

Ответ на: комментарий от RazrFalcon 22.03.17 20:45:21 MSK

Предыдущая мода была где-то на рубеже 80-х и 90-х. Везде трещали о компьютерах пятого поколения. Их очень ждали (??). Все взгляды прогрессивного человечества были устремлены на Японию. Однако, после дикого провала японцев об ИИ стали тише говорить. Гора родила мышь.

Потом где-то во второй половине 90-х был небольшой осторожный интерес к нейросетям, но больше к персептронам, немного к fuzzy. Только энтузиазма было уже сильно меньше, потому что многие относились скептически, помня о неудачи японцев.

Дальше не следил. Стало неинтересно

~~dave~~ ★★★★★
(22.03.17 21:12:40 MSK)

Ответ на: комментарий от dave 22.03.17 21:12:40 MSK

Ну меня тогда еще не было.

Вангую, что через пару лет тоже заглохнет, как те же 3d принтеры и прочий хайп. Каких-то реальных применений пока ему нету.

~~RazrFalcon~~ ★★★★★
(22.03.17 21:15:01 MSK)

Ссылка

Ответ на: комментарий от dave 22.03.17 21:12:40 MSK

Ну по мне так сейчас идёт очередная волна с дип лёрниногом и большими сетями. Просто раньше такой мощи не было.

ebantrop ★
(22.03.17 21:19:17 MSK)

Ссылка

Ответ на: комментарий от psv1967 22.03.17 21:00:50 MSK

Думаю, ассортимент весь представлен. Но существительные, которые там фигурируют... Штук 100 для упражнений и штук 500 для еды.

~~ahdenchik~~ ★
(22.03.17 21:19:59 MSK) автор топика

Ответ на: комментарий от dave 22.03.17 21:12:40 MSK

но больше к персептронам
На фоне роста популярности нейронных сетей в 1969 году вышла книга Марвина Минского и Сеймура Паперта, которая показала принципиальные ограничения перцептронов. Это привело к смещению интереса исследователей искусственного интеллекта в противоположную от нейросетей область символьных вычислений

если во второй половине 90-х и был какой то интерес к ним, то не со стороны ученых, а со стороны хомячков. Скорей всего это был просто хайп на фоне роста пузыря доткомов

aiabout
(22.03.17 21:20:48 MSK)

Вот что, автор - ты надоел. Иди ка на https://2ch.hk/pr/res/956903.html и там пацанов спроси - или похоронят, или ответ дадут.

cnupm ★
(22.03.17 21:48:54 MSK)

Ссылка

Ответ на: комментарий от cnupm 22.03.17 20:46:22 MSK

Яндекс Гугль Еще тысяча фраз

Ну, может они и могут парсить и улавливать смысл, но от пользователей это старательно скрывают.

С калориями и кочками лень придумывать, попробовал поискать «трамп пожал руку меркель», «трамп не пожал руку меркель», «трамп пожал руку не меркель» и «трамп не пожал руку не меркель».

На первых страницах практически одно и то же. И об одном и том же событии. Хотя, если бы результат отдавал человек, наверняка выдал бы немного другое

Deleted
(22.03.17 22:10:11 MSK)

Ответ на: комментарий от ahdenchik 22.03.17 21:19:59 MSK

При чем тут ассортимент? Тут проблема если у тебя этого добра всего несколько сотен или тысяч фраз, то скорее всего можешь забить на НН.

Единственный выход тогда, это найти большой тематический корпус текстов и на нем тренироваться, или готовый word embeddings типа GloVe найти.

Ну а второй гимор это примеры подсовывать, типа вот показатель и вот это атрибут его, а вот это упражнение. Аналогично как Part-of-speech tagging любой работает.

psv1967 ★★★★★
(22.03.17 22:20:23 MSK)
Последнее исправление: psv1967 22.03.17 22:21:18 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 22.03.17 22:10:11 MSK

Контекстная реклама же, ну.

cnupm ★
(22.03.17 22:26:47 MSK)

Ответ на: комментарий от cnupm 22.03.17 22:26:47 MSK

что контекстная реклама? Она такая же тупая как и поиск. Берет контент со страницы, определяет тематику по контенту, тупо по плотности вхождения слов, а затем просто показывает объявления связанные с этой тематикой.

aiabout
(22.03.17 22:32:21 MSK)

Ссылка

Ответ на: комментарий от psv1967 22.03.17 22:20:23 MSK

Единственный выход тогда, это найти большой тематический корпус текстов и на нем тренироваться, или готовый word embeddings типа GloVe найти.

Да и с ним у сетки будет немало параметров же. По крайней мере если подойти в лоб и скормить текст как матрицу из векторов отдельных слов (и обрабатывать какой-нибудь рекуррентной сеткой).

alex4321 ★
(22.03.17 22:36:24 MSK)
Последнее исправление: alex4321 22.03.17 22:36:40 MSK (всего исправлений: 1)

https://habrahabr.ru/company/yandex/blog/205198/

~~Deathstalker~~ ★★★★★
(22.03.17 22:46:28 MSK)

Ссылка

открываешь биткойн-faucet и пару «сайтов для успешных», и делаешь хитрую капчу и табличу для записи результата. разработка системы будет стоить раз в 100 больше чем ты потратишь на идиотов даже за полвека.

upcFrost ★★★★★
(23.03.17 01:09:51 MSK)

Ссылка

тебе нужен glr парсер, можешь взять тамиту от яндекса, можешь загуглить несколько реализаций, можешь набыдлокодить сам, для разминки. да, надо нашлепать некоторое количество шаблонов, да, это несколько муторно. нет, другого способа нет. нет, «нейронка» не особо поможет, все эти nlp про другое.

/thread

Rastafarra ★★★★
(23.03.17 07:32:31 MSK)

Ответ на: комментарий от psv1967 22.03.17 22:20:23 MSK

Что такое HH?

~~ahdenchik~~ ★
(23.03.17 08:48:01 MSK) автор топика

Ответ на: комментарий от Rastafarra 23.03.17 07:32:31 MSK

Спасибо! Думаю, да, это оно.

А реализации (кроме тамиты, которая оставляет впечатление недоделки-заманухи в яндекс) нормальные есть? Желательно такие, которые с чистым C слинкуются.

~~ahdenchik~~ ★
(23.03.17 08:49:07 MSK) автор топика

Ответ на: комментарий от ahdenchik 23.03.17 08:49:07 MSK

ну... хз, мне нужна была жаба, я сделал свой велосипед. кривенький, зато теперь можно козырять что я умею в nlp и ИИ, хотя ни того ни другого там нет :D

алгоритм простой:

    initialize();
    correct();
    markup();
    serialize();
    transform();
    save();

у тебя будут ошибки, поэтому нужен словарик. слов на самом деле будет не много, поэтому даже спеллчекер будет лишним (потому что подсказывает так себе). потом нашлепать кучу markup-ов, у меня это получается xml, потом его разбираем в классики и сохраняем.

Rastafarra ★★★★
(23.03.17 08:58:45 MSK)
Последнее исправление: Rastafarra 23.03.17 08:59:39 MSK (всего исправлений: 1)

Ответ на: комментарий от Rastafarra 23.03.17 08:58:45 MSK

Что такое nlp?

Где почитать об этом фундаментальное? Хабр перерыл - там только готовые примеры библиотек нашлись.

~~ahdenchik~~ ★
(23.03.17 09:12:03 MSK) автор топика

поищи на просторах этих самых интернетов, (если память не изменяет) «невод» - датамайнинг от рос.оборонки :-)

MKuznetsov ★★★★★
(23.03.17 09:34:22 MSK)

Ссылка

Ответ на: комментарий от ahdenchik 23.03.17 09:12:03 MSK

natural language processing конечно.

и что самое смешное, тебе это знание нифига не поможет. почитать конечно стоит, но...

Rastafarra ★★★★
(23.03.17 09:38:05 MSK)

Ссылка

Ответ на: комментарий от ahdenchik 23.03.17 08:48:01 MSK

Что такое HH?

обсуждаемые сети.

Альтернатива для таких ситуаций CRF(+) (есть многочисленные реализации прямо на страничке педии https://en.wikipedia.org/wiki/Conditional_random_field).

Все они по образцу делают tagging слов в последовательности. Их и встраивают во всякие автоматические решатели-узнаватели для выбора параметров в формах. (в принципе неплохо работает в той же Karma(RDF) матча схемы записей данных)

Возможно CRF моделей понадобиться несколько примененных последовательно: один распознает «это слово показатель», второй «это слово единицы измерения при слове распознанном как показатель», третий «это слово упражнение», потом уровень типа «это показатель этого упражнения» и т.п.

psv1967 ★★★★★
(23.03.17 10:42:56 MSK)

Ссылка

Ответ на: комментарий от alex4321 22.03.17 22:36:24 MSK

скормить текст

очень короткие тексты тут предполагаются

psv1967 ★★★★★
(23.03.17 11:23:55 MSK)

Ссылка

POS + набор правил. Задача простая, мудрить в ней нечего.

Solace ★★
(23.03.17 13:14:58 MSK)

Ответ на: комментарий от aiabout 22.03.17 21:20:48 MSK

Эм. Персептроны и современные сети все-таки разные понятия. И алгоритм обучения у них тоже разный.

Solace ★★
(23.03.17 13:17:04 MSK)

Ответ на: комментарий от Solace 23.03.17 13:14:58 MSK

Что есть POS?

~~ahdenchik~~ ★
(23.03.17 13:59:51 MSK) автор топика

Ответ на: комментарий от Solace 23.03.17 13:17:04 MSK

Нет никаких «современных» нейросетей. Все сети, которые существуют, родом из 60-х годов прошлого века, в том числе и персептрон.

aiabout
(23.03.17 14:05:20 MSK)

Ответ на: комментарий от aiabout 23.03.17 14:05:20 MSK

Все сети, которые существуют, родом из 60-х годов прошлого века, в том числе и персептрон.

Что-то я не помню статей про CNN/LSTM/GAN родом из 60-х.

Solace ★★
(23.03.17 14:35:07 MSK)

Ссылка

Ответ на: комментарий от ahdenchik 23.03.17 13:59:51 MSK

https://en.m.wikipedia.org/wiki/Part-of-speech_tagging

Solace ★★
(23.03.17 14:37:04 MSK)

Ссылка

Кстати, ТС, чтобы не пилить велосипеды - можешь попробовать вот это, Самсунг недавно показал:

https://github.com/zy4kamu/Coda

Solace ★★
(23.03.17 14:46:53 MSK)

Ответ на: комментарий от aiabout 23.03.17 14:05:20 MSK

«Все сети, которые существуют, родом из 60-х годов прошлого века» Рекуррентные? Свёрточные (под задачу может подойти 1-мерная свёртка с векторизацией каким-нибудь word2vec, например)? Впрочем, да - как минимум первые - не новы, но не 60-х :-)

alex4321 ★
(23.03.17 15:08:01 MSK)