Распарсить текст и заполнить словарь в Python.

machine learning, ner, nlp, python, нейронные сети

0

1

Всем привет.

Поделитесь, пожалуйста, опытом и укажите где почитать про парсинг текста. Ищу подходящий для моей задачи API / Framework.

У меня есть задача парсить текст, который пользователь пишет в свободной форме и вычленять из этого текста информацию, заполняя анкету в виде Python-словаря. keys словаря постоянны и заданы изначально.

Например, входящий текст такой:

Мария Ивановна живёт в доме №5 по ул. Джона Доу, и сегодня она пойдёт в бассейн
 в 22 часа, чтобы поиграть в шахматы.

API должен его распарсить в такой словарь:

{
'person_first_name' : 'Мария',
'person_middle_name' : 'Ивановна',
'person_last_name' : '',
'person_adress' : 'ул. Джона Доу',
'appointment_place' : 'бассейе',
'appointment_date_time' : UNIXTime,
'appointment_job' : 'поиграть в шахматы'
}

ChatGPT не предлагайте, он пишет что он для этого не создан:

"While ChatGPT can provide responses and generate text, it doesn't have built-in capabilities for structured information extraction. To extract specific information from the text, you would typically use NLP techniques such as named entity recognition (NER), part-of-speech tagging, or dependency parsing."

Ссылка

← Как правильно делать http сервер в hyper

Таблица из Git клиентов. →

парсить текст, который пользователь пишет в свободной форме

в свободной форме

Без нейросетки никак.

CrX ★★★★★
(18.06.23 16:18:22 MSK)

и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы.

«И лучше выдумать не мог».

~~Forum0888~~
(18.06.23 16:20:57 MSK)

Ответ на: комментарий от Forum0888 18.06.23 16:20:57 MSK

Ну а что ещё Марии Ивановне делать в бассейне в 22 часа, кроме всяких эфемизмов?

CrX ★★★★★
(18.06.23 16:22:05 MSK)

Ссылка

Мария Ивановна живёт в доме №5 по ул. Джона Доу,

Это можно распарсить

и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы.

С этим даже не знаю что делать.

~~Forum0888~~
(18.06.23 16:26:23 MSK)

ChatGPT:

Вы можете использовать регулярные выражения в Python для распарсивания данного текста. Вот пример кода, который решает вашу задачу:

import re
from datetime import datetime

text = "Мария Ивановна живёт в доме №5 по ул. Джона Доу, и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы."

# Используем регулярные выражения для извлечения информации из текста
name_match = re.search(r'(\w+)\s(\w+)?\s?(\w+)?', text)
address_match = re.search(r'по\sул\.\s([\w\s]+),', text)
time_match = re.search(r'в\s(\d+)\sчаса', text)
job_match = re.search(r'чтобы\s(.+)', text)

# Создаем словарь с извлеченными данными
parsed_data = {
    'person_first_name': name_match.group(1),
    'person_middle_name': name_match.group(2) if name_match.group(2) else '',
    'person_last_name': name_match.group(3) if name_match.group(3) else '',
    'person_address': address_match.group(1),
    'appointment_place': 'бассейн',
    'appointment_date_time': datetime.now().timestamp() if time_match else '',
    'appointment_job': job_match.group(1)
}

print(parsed_data)

{
  'person_first_name': 'Мария',
  'person_middle_name': 'Ивановна',
  'person_last_name': '',
  'person_address': 'ул. Джона Доу',
  'appointment_place': 'бассейн',
  'appointment_date_time': 1663761097.234567,  # Фактическое значение времени
  'appointment_job': 'поиграть в шахматы'
}

vvn_black ★★★★★
(18.06.23 16:28:03 MSK)

Ответ на: комментарий от vvn_black 18.06.23 16:28:03 MSK

Неплохо, но алгоритм скорее подогнан под контент конкретного текста.

~~Forum0888~~
(18.06.23 16:33:37 MSK)

Ссылка

Ответ на: комментарий от CrX 18.06.23 16:18:22 MSK

Без нейросетки никак.

Теоретически, без нейросетки можно распарить, где какая словоформа и где какой член предложения. Кто - Марьванна. Куда - в бассейн. Но работать это будет паршиво. Допустим, она год назад въехала в дом по улице Джона Доу, а вечером ее ждут в бассейне Каспаров и Карпов.

Vidrele ★★★★★
(18.06.23 16:33:48 MSK)

Всё же не очень понятна постановка задачи.
Похожа на «Можно ли распарсить текст книги „Война и мир“?».

~~Forum0888~~
(18.06.23 16:40:13 MSK)

Ссылка

Ответ на: комментарий от Vidrele 18.06.23 16:33:48 MSK

Да конечно будет паршиво. В свободной форме может быть что угодно, например «Бассейн будет финальной точкой маршрута Марьванны», или ещё как. Да, натянутый пример, но их разных можно сотни придумать. Текст в свободной форме парсить алгоритмически тот ещё геморрой, и всё равно в результате будет сбоить.

CrX ★★★★★
(18.06.23 16:41:57 MSK)

Ответ на: комментарий от CrX 18.06.23 16:41:57 MSK

В 22-00 поиграть в бассейне в шахматы ни одна нейронка не осилит.

Распарсить текст и заполнить словарь в Python

Может быть ТС нужен просто словарь встречающихся слов?

https://habr.com/ru/articles/239081/ Парсим на Python: Pyparsing для новичков

--------------------------------------------------
Схожу сегодня в 03-00 в магазин, куплю коробку спичек.

~~Forum0888~~
(18.06.23 16:44:07 MSK)
Последнее исправление: Forum0888 18.06.23 17:06:06 MSK (всего исправлений: 4)

Ссылка

который пользователь пишет в свободной форме и вычленять из этого текста информацию

Пользователь в свободной форме понапишет такого, что и человек не разберется, кто, с кем и где живет.

dmitry237 ★★★★★
(18.06.23 17:04:34 MSK)

Ссылка

from yandex_toloka import student_parser_za_doshirak

alex1101 ☆
(18.06.23 17:15:23 MSK)

Ссылка

Ответ на: комментарий от Forum0888 18.06.23 16:26:23 MSK

С этим даже не знаю что делать.

Составить Марии Ивановне компанию?

~~AntonI~~ ★★★★★
(18.06.23 17:41:12 MSK)

Ссылка

Ответ на: комментарий от vvn_black 18.06.23 16:28:03 MSK

Какое то вторичное квантование… а нельзя просто этот чатЖПТ попросить самому распарсить текст, а не писать программы для парсинга текста?

~~AntonI~~ ★★★★★
(18.06.23 17:42:55 MSK)

Ответ на: комментарий от AntonI 18.06.23 17:42:55 MSK

Я:

Задача парсить текст, который пользователь пишет в свободной форме и вычленять из этого текста информацию, заполняя анкету в виде Python-словаря. keys словаря постоянны и заданы изначально.

Например, входящий текст такой:

Мария Ивановна живёт в доме №5 по ул. Джона Доу, и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы.

ChatGPT:

Для решения данной задачи можно использовать регулярные выражения (regular expressions) в Python. Регулярные выражения позволяют искать и вычленять определенные шаблоны текста.

В вашем примере можно выделить следующие ключевые информационные элементы:

Имя: «Мария Ивановна» Адрес: «ул. Джона Доу, дом №5» Время похода в бассейн: «22 часа» Хобби: «шахматы»

Мы можем написать функцию, которая будет принимать текст в качестве входного аргумента, а затем использовать регулярные выражения для извлечения информации и заполнения словаря.

Вот пример кода, решающего данную задачу:

import re

def parse_text(text):
    # Инициализация пустого словаря
    info_dict = {
        'name': None,
        'address': None,
        'time': None,
        'hobby': None
    }
    
    # Поиск имени
    name_match = re.search(r'(\b[А-ЯЁ][а-яё]+\b)\s+(\b[А-ЯЁ][а-яё]+\b)', text)
    if name_match:
        name = name_match.group()
        info_dict['name'] = name
    
    # Поиск адреса
    address_match = re.search(r'по ул\. (\b[А-ЯЁа-яё\s\d.,-]+)', text)
    if address_match:
        address = address_match.group(1)
        info_dict['address'] = address
    
    # Поиск времени
    time_match = re.search(r'(\d{1,2} часа)', text)
    if time_match:
        time = time_match.group()
        info_dict['time'] = time
    
    # Поиск хобби
    hobby_match = re.search(r'поиграть в (\b[А-ЯЁа-яё\s]+\b)', text)
    if hobby_match:
        hobby = hobby_match.group(1)
        info_dict['hobby'] = hobby
    
    return info_dict

# Пример использования
text = "Мария Ивановна живёт в доме №5 по ул. Джона Доу, и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы."
info = parse_text(text)
print(info)

{
    'name': 'Мария Ивановна',
    'address': 'Джона Доу, дом №5',
    'time': '22 часа',
    'hobby': 'шахматы'
}

vvn_black ★★★★★
(18.06.23 17:47:37 MSK)

Ответ на: комментарий от AntonI 18.06.23 17:42:55 MSK

а нельзя просто этот чатЖПТ

Можно, чем в общем-то пользуюсь и я сам, разбирая дискографию составленную разными людьми и совершенно по-разному, разбирая на автора, альбом, дату релиза.

vvn_black ★★★★★
(18.06.23 17:49:51 MSK)

Ответ на: комментарий от vvn_black 18.06.23 17:49:51 MSK

Интересно, спасибо!

~~AntonI~~ ★★★★★
(18.06.23 17:50:52 MSK)

Ответ на: комментарий от AntonI 18.06.23 17:50:52 MSK

В примере выше шаблоны не были заданы и неонка сама вытянула ключевые. Это новый промпт, который не связан с предыдущим примером, т.е. его она не учитывала.

Не знаю, чего там у ТС не получается использовать.

vvn_black ★★★★★
(18.06.23 17:51:34 MSK)

Ответ на: комментарий от vvn_black 18.06.23 17:51:34 MSK

Как скоро оно заменит эникейщиков?

~~AntonI~~ ★★★★★
(18.06.23 17:56:54 MSK)

То что ты хочешь называется Named Entity Recognition. Собственно ChatGPT даже написал тебе об этом.

Есть обзор библиотек/фреймворков для этого, в том числе на питоне.

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

Инструменты для решения NER-задач для русского языка

P.S. Создавал тему зачем оно нужно Истории успеха для Named Entity Recognition (NER) - в общем, насколько понимаю, главная проблема в практическом использовании, что процент ошибок при распознавании все же великоват. Даже 2%-3% - немало на практике. Но может тебе подойдет.

praseodim ★★★★★
(18.06.23 17:57:21 MSK)
Последнее исправление: praseodim 18.06.23 18:03:03 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 18.06.23 17:47:37 MSK

Впечатляюще, но ты понимаешь, что не годится для других примеров ФИО и хобби? Такое только словарями вытаскивать и то накладки могут быть.

praseodim ★★★★★
(18.06.23 17:59:56 MSK)

Ответ на: комментарий от AntonI 18.06.23 17:56:54 MSK

Думаю, что никогда. В этом плане мне она представляется даже не продвинутым гуглом, а продвинутым интерфейсом к SO, была такая консольная утилита (howdowit если не ошибаюсь в названии) с гениально простой идеей дёргать http-запросом поисковый запрос, парсить и отдавать либо ответ самый рейтинговый, либо помеченный как решение.

Я долго пользовался самописным ботом для таких простых запросов, ответы на которые постоянно забываешь, типа «как в js ставить подстроку в середину массива». Чтоб не лазить в документацию и поисковики.

vvn_black ★★★★★
(18.06.23 18:02:20 MSK)

Ссылка

Ответ на: комментарий от praseodim 18.06.23 17:59:56 MSK

Впечатляюще, но ты понимаешь, что не годится для других примеров ФИО и хобби?

Да, но можно же набор повторяющихся шаблонов выделить, остальные девиации разбирать руками. Т.е., каким то образом облегчить обработку массы ответов, наверное, можно.

vvn_black ★★★★★
(18.06.23 18:03:55 MSK)

Ответ на: комментарий от vvn_black 18.06.23 18:03:55 MSK

Для любых ФИО - это не реально. Нужны словари имен и фамилий с отчествами и других вариантов. Плюс морфология.

praseodim ★★★★★
(18.06.23 18:06:58 MSK)
Последнее исправление: praseodim 18.06.23 18:07:59 MSK (всего исправлений: 1)

Ссылка

фразы для гуглинга:

natural language processing (nlp)
named entity recognition (ner)

// сам я не настоящий сварщик в этих областях и тред не читал

aol ★★★★★
(18.06.23 18:12:42 MSK)

https://www.nltk.org и многие другие

t184256 ★★★★★
(18.06.23 18:13:10 MSK)

Ответ на: комментарий от t184256 18.06.23 18:13:10 MSK

NLTK вроде для инглиша только.

CrX ★★★★★
(18.06.23 18:47:00 MSK)

man ntlk (но это не точно)

faq2 ★
(18.06.23 21:11:01 MSK)

Ссылка

Ответ на: комментарий от CrX 18.06.23 18:47:00 MSK

NLTK вроде для инглиша только.

Это же очевидно как её решить! Перевести исходный текст машинным переводом на английский, затем результат на русский! GIF: Modern software development

Tanger ★★★★★
(18.06.23 21:57:43 MSK)

Ссылка

Тебе дали кейворды по которым искать. Что ты по ним нашёл?

slovazap ★★★★★
(19.06.23 01:25:09 MSK)

Ссылка

ChatGPT не предлагайте, он пишет что он для этого не создан

Да ладно: https://yourimageshare.com/ib/sfEvpScMAY

shiva
(19.06.23 01:54:21 MSK)

Ответ на: комментарий от Vidrele 18.06.23 16:33:48 MSK

Нет. Естественный язык очень сильно зависит от контекста. Вплоть до того, что фраза может быть прямо противоположной по смыслу самой себе. И это обычное дело.

thegoldone ★★★
(19.06.23 02:06:39 MSK)

Ответ на: комментарий от praseodim 18.06.23 17:57:21 MSK

То что ты хочешь называется Named Entity Recognition.

Я знаю, поэтому выставил соответсвующие тэги.

Больше скажу, я уже потестил natasha, DeepPavlov, pymorphy2 и rutermextract(RusVectōrēs). Везде результат меня не устроил. Возможно DeepPavlov можно будет подогнать с помощью тонкой настройки обучения, но я пока не умею.

little_fox
(19.06.23 03:55:17 MSK) автор топика

Ссылка

Ответ на: комментарий от praseodim 18.06.23 17:59:56 MSK

Он не понимает.

little_fox
(19.06.23 03:55:56 MSK) автор топика

Ссылка

Ответ на: комментарий от aol 18.06.23 18:12:42 MSK

спасибо кэп. я даже тэги такие выставил ещё при написании поста.

little_fox
(19.06.23 03:56:48 MSK) автор топика

Ссылка

Ответ на: комментарий от t184256 18.06.23 18:13:10 MSK

https://www.nltk.org и многие другие… бесполезные примеры

little_fox
(19.06.23 03:57:19 MSK) автор топика

Ответ на: комментарий от shiva 19.06.23 01:54:21 MSK

И где там cловарь Python? И где там повторяемость результата?

little_fox
(19.06.23 03:58:26 MSK) автор топика

Ответ на: комментарий от little_fox 19.06.23 03:58:26 MSK

Как скажешь, так и сделает: https://yourimageshare.com/ib/ftUOpsDr0E

shiva
(19.06.23 04:12:33 MSK)

Ответ на: комментарий от shiva 19.06.23 04:12:33 MSK

Код, как к ней приписюлиться своим питоном спроси у нее же.

shiva
(19.06.23 04:17:50 MSK)

Ссылка

ChatGPT вполне себе может, надо задания правильно писать https://ibb.co/9ZNG7Lv

но может и взбрыкнуть. еще надо будет самому некоторые вещи делать, переводя дату в юникс формат он мог и наврать, просто показать похожую цифру на то что должно быть

тут можно попробовать https://t.me/kun4sun_bot

theurs ★★
(19.06.23 05:33:44 MSK)
Последнее исправление: theurs 19.06.23 05:38:04 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от little_fox 19.06.23 03:57:19 MSK

Ну да, пусть лучше будет полный тред регулярок.

t184256 ★★★★★
(19.06.23 09:54:17 MSK)

Ссылка

Ответ на: комментарий от thegoldone 19.06.23 02:06:39 MSK

Получив задание типа «напиши историю о человеке, где он живёт и куда, когда и зачем пойдет», большинство людей все же примут простые и очевидные решения. Поэтому алгоритмический парсинг имеет право на жизнь как эксперимент. Но в продакшн - фу-фу-фу, конечно.

Vidrele ★★★★★
(19.06.23 13:17:16 MSK)

Ссылка

Это что, доклады осведомителей в полицию? Просто заставить их писать отчёты в фиксированном формате, типа <субъект> <объект> <действие> <время> <обстоятельства>. Как говорил Броневой: «что это вас на эпитеты потянуло, Шольц? мы, сыщики должны оперировать фактами: он сказал, она сделала».

seiken ★★★★★
(21.06.23 13:48:11 MSK)
Последнее исправление: seiken 21.06.23 13:51:13 MSK (всего исправлений: 1)

Ответ на: комментарий от seiken 21.06.23 13:48:11 MSK

И как факты распарсить в словарь?

little_fox
(21.06.23 14:52:18 MSK) автор топика

Оперовский AI выдал на запрос "Распарси на блоки: «Мария Ивановна живёт в доме №5 по ул. Джона Доу, и сегодня она пойдёт в бассейн в 22 часа, чтобы поиграть в шахматы.»

Имя и фамилия: Мария Ивановна

Адрес проживания: дом №5 по ул. Джона Доу

Планы на сегодня: идти в бассейн

Время похода в бассейн: 22 часа

Цель похода в бассейн: поиграть в шахматы

One ★★★★★
(21.06.23 15:02:41 MSK)

Ответ на: комментарий от One 21.06.23 15:02:41 MSK

А где словарь Python?

little_fox
(21.06.23 15:04:25 MSK) автор топика

Ответ на: комментарий от little_fox 21.06.23 15:04:25 MSK

Сделай из выдачи? ) Сложно что ли.

Сложно понять, что за у них API и бесплатное ли или как платить.

One ★★★★★
(21.06.23 15:05:23 MSK)

Ответ на: комментарий от One 21.06.23 15:05:23 MSK

Сложно что-ли написать понятно? Что такое оперовский AI? У кого API?

little_fox
(21.06.23 15:12:01 MSK) автор топика

Ссылка

Ответ на: комментарий от little_fox 21.06.23 14:52:18 MSK

А вообще, если это отчёты, не нужно никаких текстов писать. Пусть заполняют шаблон JSON.

seiken ★★★★★
(21.06.23 15:12:22 MSK)

Ссылка

20 ноября 2023 г.

Here is https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson/5/inferring an example of similar task:

import openai
import os

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

openai.api_key  = os.getenv('OPENAI_API_KEY')


def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # this is the degree of randomness of the model's output
    )
    return response.choices[0].message["content"]


lamp_review = """
Needed a nice lamp for my bedroom, and this one had \
additional storage and not too high of a price point. \
Got it fast.  The string to our lamp broke during the \
transit and the company happily sent over a new one. \
Came within a few days as well. It was easy to put \
together.  I had a missing part, so I contacted their \
support and they very quickly got me the missing piece! \
Lumina seems to me to be a great company that cares \
about their customers and products!!
"""

prompt = f"""
Identify the following items from the review text: 
- Sentiment (positive or negative)
- Is the reviewer expressing anger? (true or false)
- Item purchased by reviewer
- Company that made the item

The review is delimited with triple backticks. \
Format your response as a JSON object with \
"Sentiment", "Anger", "Item" and "Brand" as the keys.
If the information isn't present, use "unknown" \
as the value.
Make your response as short as possible.
Format the Anger value as a boolean.

Review text: '''{lamp_review}'''
"""
response = get_completion(prompt)
print(response)

LeNiN ★★
(20.11.23 23:47:11 MSK)