Как разбить текст на слова?

0

1

Всем привет! Не могу понять, как разбить текст на слова. То есть допустим на вход даётся строка «этопримертекста», а на выходе нужно получить список слов в виде массива [«это», «пример», «текста»] или в виде текста «это пример текста», неважно. Язык, на котором написаны слова, не важен. Язык программирования тоже неважен. Для упрощения можно использовать только топ-100 или топ-1000 самых популярных слов. Также нужно, чтобы сложность была не экспоненциальная, то есть надо использовать наверное какие-нибудь эвристики. Также нужна устойчивость к опечаткам, поэтому алгоритм бойера-мура не подойдёт. Также нужно это сделать без использования нейросетей

Перемещено Dimez из general

←	На чем писать Desktop приложение на Rust?

Сишечка - передача массива структур с полями пользовательского типа

→

← 1 2 →

Что-то ничего лучше:

Собираешь список всех возмжных разбиений.
Для каждого случая считаешь расстояние Левенштейна для всех слов. (Понадобится хороший словарь, да).
Выбираешь минимальное. Что такое «минимальное» — тоже интересный вопрос.

не придумывается. Чтобы совсем не умереть нужно придумать хорошее ограничение на количество пропущенных/лишних букв в слове.

ugoday ★★★★★
(22.05.25 18:16:28 MSK)

Ответ на: удаленный комментарий

и в итоге ты получишь алгоритм, неотличимый от свёрточной сети :)
т.е. точно такая же нейросетка, только все коэффициенты ты просчитываешь вручную, а это жопа по количеству работы.
но как опыт по разбору семантики будет большой.

pfg ★★★★★
(22.05.25 18:26:22 MSK)
Последнее исправление: pfg 22.05.25 18:34:13 MSK (всего исправлений: 1)

Должна быть некая база.

sparkie ★★★★★
(22.05.25 18:32:49 MSK)

Ответ на: комментарий от Obezyan 22.05.25 17:49:35 MSK

Последние два абзаца моего сообщения, ты, как специалист, конечно, проигнорировал

KivApple ★★★★★
(22.05.25 19:06:02 MSK)

Ответ на: комментарий от ugoday 22.05.25 18:16:28 MSK

Нет смысла считать все возможные разбиения.

Ты себе представь, что ты взял «войну и мир» и вырвал оттуда одну случайную страницу и рассматриваешь её. Глубокий художественный замысел автора, быть может, и пройдёт мимо тебя, но даже на одной изолированной странице (минус два предложения оставшиеся без начала и без конца) есть вся необходимая информация для всего низкоуровневого - разбиения на слова, определения частей речи, грамматического разбора предложений и т д.

Так что надо брать окно на сколько то десятков символов и идти им. Строить все возможные разбиения в окне, выбирать самое вероятное (учитывать, что последнее слово, возможно, обрезано и надо его не учитывать) и брать оттуда первое слово. Затем сдвигать окно на конец этого слова и повторять алгоритм.

Потому что ну не будет такого, что у тебя простыня текста «Война и мир» и одна буква на последней странице меняет разбиение слов на первой. В текстах на естественном языке высокая локальность всех низкоуровневых эффектов, потому что иначе их было бы невозможно читать. В поле зрения попадает лишь несколько строк в каждый момент времени.

KivApple ★★★★★
(22.05.25 19:12:17 MSK)
Последнее исправление: KivApple 22.05.25 19:13:43 MSK (всего исправлений: 1)

Ответ на: комментарий от KivApple 22.05.25 19:12:17 MSK

Так что надо брать окно на сколько то десятков символов и идти им.

Так это автоматически получится. Если в словаре нет слов длиннее 10 букв, то нет смысла рассматривать слова длинее 15 в качестве участника возможного разбиения.

ugoday ★★★★★
(22.05.25 19:23:20 MSK)

Ответ на: комментарий от KivApple 22.05.25 19:06:02 MSK

Да, если первые абзацы - нерелевантный мусор, то в конце вряд ли будет откровение.

Obezyan ☆
(22.05.25 21:15:46 MSK)

Ответ на: комментарий от anonymous 21.05.25 18:30:24 MSK

проклинаютебя

anonymous
(22.05.25 21:17:24 MSK)

Ответ на: комментарий от anonymous 22.05.25 21:17:24 MSK

стерильноебанноеполотенце

anonymous
(22.05.25 21:45:05 MSK)

Ответ на: комментарий от Obezyan 22.05.25 21:15:46 MSK

Я так и знал, что кто-то попадётся в мою ловушку

KivApple ★★★★★
(23.05.25 02:44:30 MSK)
Последнее исправление: KivApple 23.05.25 02:45:01 MSK (всего исправлений: 1)

Язык, на котором написаны слова, не важен.

В некоторых языках пишут справа налево.

Psilocybe ★★★★★
(23.05.25 02:59:31 MSK)

Пробелы уже советовали?

targitaj ★★★★★
(23.05.25 03:06:25 MSK)

А так, тупой алгоритм - отсортируй искомые слова в порядке убывания длины и пробуй сопоставить с каждым по очереди.

Psilocybe ★★★★★
(23.05.25 03:10:36 MSK)

Держи: https://github.com/fxsjy/jieba/tree/master?tab=readme-ov-file#algorithm

Based on a prefix dictionary structure to achieve efficient word graph scanning. Build a directed acyclic graph (DAG) for all possible word combinations.

Use dynamic programming to find the most probable combination based on the word frequency.

For unknown words, a HMM-based model is used with the Viterbi algorithm.

Подходит по всем параметрам. В китайском не нужно думать о пробелах, поэтому оно изначально под твой формат ввода. Опечатки решаются традиционным для CJK-языков методом: «это проблема юзера, нужно смотреть когда вводишь». Hidden Markov model для слов не в словаре можно отключить.

x3al ★★★★★
(23.05.25 03:33:28 MSK)

Средняя длина слова - около 5, просто отрезай подстроки каждые 5 += 3 символа.

Bfgeshka ★★★★★
(23.05.25 04:31:18 MSK)

Ответ на: комментарий от Psilocybe 23.05.25 02:59:31 MSK

В некоторых языках пишут справа налево.

Это как раз неважно — там же просто RTL юникодный будет стоять (и то не факт), а байтики, обозначающие буковки всё равно будут в том порядке идти, в котором читаются. Просто при отображении на экране пишется справа-налево, что для данной задачи не имеет значения.

CrX ★★★★★
(23.05.25 05:12:19 MSK)

Главное корректно разбивать «тебяисраноюлюблю» (C) Поручик Ржевский, остальное не важно.

unDEFER ★★★★★
(23.05.25 05:37:41 MSK)

Язык, на котором написаны слова, не важен Для упрощения можно использовать только топ нужно, чтобы сложность была не экспоненциальная

Если прям с такими упрощенными условиями, то я бы делал так: Сперва подставить все слова во все позиции, сложность пусть будет и квадратная, по условиям проходит Если где вдруг выпали конфликтующие варианты, задействовать динамическое программирование – при условии что в середине взято слово w остается левая и правая половина которые можно решать отдельно, итд. Для каждого интервала (a,b) будет одно оптимальное решение, всего таких интервалов не более чем квадрат, все в месте в полиномиальную сложность как-нибудь да уложится Еще нужна какая-то произвольная формула по которой определять какое решение оптимальнее. Например давать n^2 очков за каждое слово длины n и -1 за каждую букву которая никуда не вошла.

anonymous
(23.05.25 06:33:56 MSK)

Ответ на: удаленный комментарий

Просто я хотел сделать парсер человеческого языка без нейросетей.

Да ладно выдумывать! Ясно же, что ты решил создать собственный ИИ, с блэкдже…

seiken ★★★★★
(23.05.25 19:11:01 MSK)

Ответ на: комментарий от Obezyan 22.05.25 17:49:35 MSK

Резюмируя, если на вашу простыню текста наложить то что написал автор в теме, то от ваших рассуждений ничего не останется. Это тупой флуд ни о чем засоряющий обсуждение. И таких тут пол форума, фу таким быть.

Да вы оба хороши. Ты тоже написал простыню текста, которая не помогает + проигнорировал момент в ТЗ с опечатками.

Да и похер, ты всегда такой и пишешь тут только чтоб показаться значимым.

anonymous
(23.05.25 23:04:06 MSK)

Ответ на: комментарий от anonymous 23.05.25 23:04:06 MSK

Ты тоже написал простыню текста, которая не помогает

Решение я предложил в предыдущем посте, но вы слишком недалеки чтобы это посмотреть. Понимаю, почему сидите под анонимусом.

Да и похер

согласен

ты всегда такой и пишешь тут только чтоб показаться значимым.

Значимым перед кем? Оглянитесь, тут реально знающих программистов которые регулярно пишут - меньше 10 человек. Если бы вы знали насколько мне неважно казаться значимым вы бы заплакали. Просто меня раздражает тупняк что я и выливаю вам на голову, терпите.

Obezyan ☆
(24.05.25 01:02:39 MSK)

Ответ на: комментарий от anonymous 22.05.25 21:17:24 MSK

проклинаютебя

Задело - за дело.

И дико мне - иди ко мне.

Покалечишься - пока лечишься.

Мы женаты - мы же на «ты».

Ты жеребёнок - ты же ребёнок.

Несуразные вещи - несу разные вещи.

Ему же надо будет - ему жена добудет.

Надо ждать - надо ж дать

Мало ждал - мало ж дал

Сплю сутками - сплю с утками

Гаджеты - гад же ты

у роддома - урод дома

пишу профашистский бред - пишу про фашистский бред

blex ★★★★
(25.05.25 21:26:44 MSK)

← 1 2 →

←	На чем писать Desktop приложение на Rust?

Development

Сишечка - передача массива структур с полями пользовательского типа

→

Похожие темы