Как вообще определить, что слово - глагол?

1

1

Прошло уже более 20 лет с момента создания этой темы - Дополнение к LOR FAQ
хватит терпеть неавтоматизированность этой проверки.

Искины предлагают такое:

использовать лексические базы данных, такие как WordNet (то есть, словари), эти базы должны содержать информацию о части речи;
использовать морфологические анализаторы, такие как pymorphy2 или Natasha;
обучить модель машинного обучения на размеченных данных;
использовать шаблоны и правила, основанные на суффиксах и префиксах, которые часто встречаются в глаголах (но это ненадёжный метод);

Библиотека pymorphy2 написана на python и её будет сложно засунуть в проект на Java, похожий на LOR.

Natasha тоже.

Умеет ли WordNet в русский язык? RuWordNet
Как им пользоваться - вообще неясно, потому что он непубличный:

«Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru.»

Допустим, что в качестве словаря можно скачать викисловарь
<generator>MediaWiki 1.44.0-wmf.25</generator>
что можно дальше сделать на основе этого?

Можно сделать другой, более компактный XML-файл, в котором останутся только глаголы (возможно связанные между собой, там же есть таблицы для форм глаголов и гиперссылки).

Это станет тем самым «размеченным корпусом», на котором надо тренировать ~~нейросеть~~ модель машинного обучения?

Как нейросеть сформирует правила?

Кроме самого слова можно ещё использовать его контекст или контексты, для увеличения вероятности правильного распознавания части речи и выявления факта отношения слова к глаголам. Что-нибудь можно сделать, и что именно?

Ссылка

←	Производительность Flutter в сравнении с нативом

Vim автоматическое преобразование табов в пробелы при :wq

→

← 1 2 →

мыш (кродеться) мимо этой темы.

ALiEN175
(07.05.25 03:45:34 MSK)
Последнее исправление: ALiEN175 07.05.25 03:49:15 MSK (всего исправлений: 1)

Ссылка

На самом деле все просто. Нужно задать слову вопрос: что делает. Если в слове в итоге будет мягкий знак или не будет мягкого знака - значит это глагол.

Хм.. Какая интересная задача. Вот питон ругают, а в нем уже есть минимум два готовых и достаточно компактны решения.

LightDiver ★★★★★
(07.05.25 04:37:33 MSK)
Последнее исправление: LightDiver 07.05.25 04:43:36 MSK (всего исправлений: 1)

Ответ на: комментарий от LightDiver 07.05.25 04:37:33 MSK

Если в слове в итоге будет мягкий знак или не будет мягкого знака - значит это глагол.

Т.е. любое слово - глагол

PPP328 ★★★★★
(07.05.25 04:45:00 MSK)

Ссылка

Свою судьбу ху#ня и блR,
Слегка о прошлом гонорея,
Сказала: «Каравай меня!»,
Прикрыв глаза и батарея

Её весь вечер он вокзал,
от страсти аж оранжерея,
сандал, портал и просто трал,
её экстаза портупея.

Возня синхронно и идея,
всю ночь они горизонтали,
И лишь под утро, ассамблея,
забвенье автомагистрали…

kott ★★★★★
(07.05.25 05:24:47 MSK)

Ключевое слово POS tagger. Больше не скажу, понятия не имею, какие существуют для русского языка.

P.S. обычно обходятся без машинлёрнинга-диплёрнинга-блокчейна.

token_polyak ★★★★★
(07.05.25 05:54:48 MSK)
Последнее исправление: token_polyak 07.05.25 05:55:15 MSK (всего исправлений: 1)

Ссылка

использовать шаблоны и правила, основанные на суффиксах и префиксах, которые часто встречаются в глаголах (но это ненадёжный метод)

Неоднозначности возникают почти всегда в регулярном втором спряжении.

Выход – избегать второго спряжения в сомнительных случаях.

Лена коммитит(ь)ся. Лена только собирается коммитит(ь)ся.

Лена коммитается. Лена только собирается коммитаться.

Света дебажит(ь)ся. Света только собирается дебажит(ь)ся.

Света дебагается. Света только собирается дебагаться.

vM ★★
(07.05.25 06:20:48 MSK)

Как вообще определить, что слово - глагол?

очень просто - не надо зацикливаЦа на этом

amd_amd ★★★★★
(07.05.25 06:52:51 MSK)

Ответ на: комментарий от amd_amd 07.05.25 06:52:51 MSK

не надо зацикливаЦа

или ЦО

vM ★★
(07.05.25 09:17:08 MSK)

Мне вот тоже нужно было to, как инфинитив с маленькой буквы, а как предлог направления с большой. В результате быстрее всего оказалось руками.

dmitry237 ★★★★★
(07.05.25 09:24:37 MSK)

Ссылка

Искины предлагают

Нашёл кого слушать: вон они в прошлый раз вообще всю планету в чд упаковали

pihter ★★★★★
(07.05.25 09:31:07 MSK)

Ссылка

три

soomrack ★★★★★
(07.05.25 10:14:28 MSK)

Ответ на: комментарий от vM 07.05.25 09:17:08 MSK

Правильно с двумя Ц

Khnazile ★★★★★
(07.05.25 10:24:05 MSK)

Ссылка

Без учета контекста в общем случае невозможно определить, что глагол, а что нет.

Например, в предложенииях

Мой дядя самых честных правил
Души прекрасные порывы

правил и души - это существительные или глаголы? =)

Так что задача простыми списками слов и правил не решается.

Кроме самого слова можно ещё использовать его контекст или контексты, для увеличения вероятности правильного распознавания части речи и выявления факта отношения слова к глаголам.

Не можно, а нужно.

Что-нибудь можно сделать, и что именно?

Сейчас из головы вылетело и за пять минут не нашлось, но есть (год назад точно было) сайт для лингвистов, там большая куча разных датасетов и библиотек. Не opencorpora.org - какой-то еще, хотя и этот кое-чем может помочь.

praseodim ★★★★★
(07.05.25 11:07:05 MSK)
Последнее исправление: praseodim 07.05.25 11:08:36 MSK (всего исправлений: 1)

Пеки хлеб!

Она стоит у печи.

Вот автоматизированно трудно будет различить.

Psilocybe ★★★★★
(07.05.25 11:24:56 MSK)

Ссылка

Ответ на: комментарий от vM 07.05.25 06:20:48 MSK

Только никакой «неоднозначности» тут нет и не было. Путать «ться/тся» — это просто самый надёжный маркер олигофрена, неспособного отличить «что делает?» от «что делать?».

alegz ★★★★★
(07.05.25 11:39:32 MSK)

Ответ на: комментарий от alegz 07.05.25 11:39:32 MSK

Есть ещё продуктивная группа глаголов на -нут(ь)ся:

Света и Лена (что делают?) обещают дебагнут(ь)ся, а потом коммитнут(ь)ся.

vM ★★
(07.05.25 12:03:21 MSK)

Ссылка

на удивление, определить можно только в контексте.

«бегло» - это глагол/прилагательное/существительное ? что-ты-длжать-такое

MKuznetsov ★★★★★
(07.05.25 12:22:32 MSK)

Ответ на: комментарий от soomrack 07.05.25 10:14:28 MSK

В фразе «три богатыря» три это глагол.

vel ★★★★★
(07.05.25 15:49:34 MSK)

Как вообще определить, что слово - глагол?

В общем случае никак. В русском нужно как минимум анализировать очень большой контекст вокруг фразы и её смысл.

В английском вообще почти любое слово может быть и глаголом и существительным и прилагательным. И хотя в английском порядок частей речи фиксирован в большинстве случаев, но, опять же, без анализа контекста и смысла не обойтись.

И если контекст ещё как-то можно попытаться анализировать программно, то со смыслом - полнейший облом и никаких перспектив вообще даже в отдалённом будущем.

Stanson ★★★★★
(07.05.25 18:21:57 MSK)

Ответ на: комментарий от Stanson 07.05.25 18:21:57 MSK

На китайский надо переходить. Точный контекст, порядок, смыслы. И все эти проблемы сами отпадут с определениями.

LightDiver ★★★★★
(07.05.25 19:42:04 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 07.05.25 12:22:32 MSK

внезапно наречие

ripgrep
(07.05.25 19:45:09 MSK)

Ссылка

И это ещё про «иссяк запал» никто не вспомнил.

JaM ★
(08.05.25 03:28:40 MSK)

Ссылка

Ответ на: комментарий от LightDiver 07.05.25 04:37:33 MSK

Нужно задать слову вопрос

Это был эпический комментарий. Прямо-таки языческая оживляющая, анимирующая технология одушевления неживых вещей (в данном случае концепции «слово»). Это близко к первобытному объектно-ориентированному подходу, в котором объекты наделяются умениями, изначально им не присущими (т.е. основанному на комплиментах).

Заставило задуматься меня о том, что я не дал определение понятию «слово». А это было важно, так как должно повлиять на API предполагаемой библиотеки. Если слово - это элемент текста в некотором аспекте (лексическом, например), то надо научиться слова в тексте адресовать, обозначать конкретные для целеуказания.

Но слово это не просто элемент текста, но ещё одновременно и элемент языка. Что с этим можно сделать? Надо хотя бы разными понятиями обозначить эти два концепта (в тексте и в языке). В тексте пусть будет экземпляр словоформы, в языке пусть будет семантическое гнездо.

Shushundr ★★★★
(08.05.25 04:13:43 MSK) автор топика

Ссылка

спросить дикпик или открыть учебник по русскому за 5-ый класс. там в зависимости от времени определенные приставки и окончания, те startswith/endswith хватит

rtxtxtrx ★★★
(08.05.25 04:40:54 MSK)

Ссылка

Без контекста никак: должна знать знать - что там за части речи?
В контексте тоже не 100%, ибо бывает
1) игра слов:
-Попингуй!
-Сам ты попингуй.
2) многозначный контекст (пила пила)

А ещё нас рать - это глагол или как?

novus ★★
(08.05.25 05:38:28 MSK)
Последнее исправление: novus 08.05.25 05:39:17 MSK (всего исправлений: 2)

Ссылка

Никак: в английском языке, все большинство слов могут играть роль как существительных, так и глаголов.

next_time ★★★★★
(08.05.25 10:25:36 MSK)

В общем случае никак, в частных - знать язык.

ya-betmen ★★★★★
(08.05.25 10:27:12 MSK)

Ссылка

Ответ на: комментарий от next_time 08.05.25 10:25:36 MSK

Русский язык тоже так умеет: *бало (простите за мат) - это глагол или существительное?

next_time ★★★★★
(08.05.25 10:30:55 MSK)

Ответ на: комментарий от next_time 08.05.25 10:25:36 MSK

В английскомпри наличии полной фразы глагол (сказуемое) элементарно детектится из знания грамматики.

В русском например для этого обязательно нужна лексика.

ya-betmen ★★★★★
(08.05.25 10:34:40 MSK)

Ответ на: комментарий от next_time 08.05.25 10:30:55 MSK

Ну и другие слова типа «жало».

Причём, это не случайность: такие слова - отголосок более широкого использования отглагольных существительных на ранних этапах развития русского языка

next_time ★★★★★
(08.05.25 10:38:01 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 08.05.25 10:34:40 MSK

Это да, но без наличия полной фразы, например, при спеллчеке во время ввода, такое особо не продетектить

next_time ★★★★★
(08.05.25 10:40:00 MSK)

Ответ на: комментарий от next_time 08.05.25 10:40:00 MSK

Для спеллчека это прям не всегда и требуется, различать части речи.

Я скорее к тому, что в русском всякие идеи типа глокой куздры легко контрит дочь генерала.

ya-betmen ★★★★★
(08.05.25 10:42:40 MSK)

Ссылка

мне кажется, что все попытки алгоритмически решить твою задачу провалились.

Все пихают в нейросетку и фигачат

max_lapshin ★★★★★
(08.05.25 12:23:28 MSK)

Ссылка

В общем случае задача определения части речи не решаема. И чисто pymorphy2/natasha ничего не могут с ней сделать. Причина проста - нужен ещё контекст, т.е. сверху придётся ещё одну нейронку лепить и всё равно ни одна нейронка не даёт 100% точности. Вот тебе примеры:

Я купил ноут в запас

Я запас ноут

С ться тся конечно такое сходу сложнее придумать, но я уверен что что-то найдётся, благо морфологических омонимов в русском языке много.

peregrine ★★★★★
(08.05.25 14:41:23 MSK)

Ссылка

Ответ на: комментарий от praseodim 07.05.25 11:07:05 MSK

А ещё кожаный мешок мог вложить двойной смысл. Вот как во втором предложении. Даже контекста мало чтоб понять надо ли душить в себе всё прекрасное или у какой-то души есть какие-то порывы.

peregrine ★★★★★
(08.05.25 14:44:20 MSK)

Ответ на: комментарий от vel 07.05.25 15:49:34 MSK

«три богатыря» три это глагол

а «богатыря» это деепричастие?

vM ★★
(08.05.25 22:14:58 MSK)

Ответ на: комментарий от vM 08.05.25 22:14:58 MSK

Любимый баян:

«Душа монаха» - душа это деепричастие
«Стих» - это глагол в повелительном наклонении
«семеро козлят» - козлят это глагол.

vel ★★★★★
(08.05.25 22:36:00 MSK)

Ссылка

Ответ на: комментарий от peregrine 08.05.25 14:44:20 MSK

кожаный мешок мог вложить двойной смысл

В таком случае киберсознание сможет извлечь двойной смысл. Что сразу панику поднимать заранее?

Shushundr ★★★★
(09.05.25 03:05:29 MSK) автор топика

Ответ на: комментарий от Shushundr 09.05.25 03:05:29 MSK

import re

def find_russian_verbs(text):
    # Регулярка для извлечения русских слов (включая ё)
    word_pattern = re.compile(r'\b\w+\b')
    
    # Характерные признаки глаголов
    verb_endings = {
        # Инфинитивы
        'ть', 'ться', 'ти', 'тись', 'чь', 'чься',
        # Личные формы
        'у', 'ю', 'ешь', 'ет', 'ем', 'ете', 'ут', 'ют',
        'ил', 'ила', 'ило', 'или', 'ал', 'ала', 'ало', 'али',
        'ял', 'яла', 'яло', 'яли', 'сь', 'ся',
        # Деепричастия
        'я', 'в', 'вши', 'учи', 'ючи'
    }

    # Приставки и суффиксы
    prefixes = {'по', 'за', 'на', 'про', 'вы', 'от', 'до', 'при', 'под', 'пере', 'раз'}
    suffixes = {'ыва', 'ива', 'ва', 'ова', 'ева'}

    # Слова-исключения
    exceptions = {
        'путь', 'дверь', 'сеть', 'мать', 'дочь', 'плеть', 
        'рать', 'гость', 'кость', 'рожь', 'плоть'
    }

    verbs = []
    words = word_pattern.findall(text)
    
    for word in words:
        original_word = word
        word = word.lower()
        
        if len(word) < 3 or word in exceptions:
            continue
        
        # Проверка по окончаниям
        if any(word.endswith(end) for end in verb_endings):
            # Проверка характерных суффиксов
            if any(suff in word for suff in suffixes):
                verbs.append(original_word)
                continue
                
            # Проверка приставок
            if any(word.startswith(pref) for pref in prefixes):
                verbs.append(original_word)
                continue
                
            # Для возвратных глаголов
            if word.endswith(('ся', 'сь')):
                base = word[:-2]
                if len(base) >= 2 and any(base.endswith(end) for end in verb_endings):
                    verbs.append(original_word)

    return list(set(verbs))

# Пример использования
text = "Решая задачи и думая о жизни, он начал петь, но вдруг остановился, услышав странный звук."
print(find_russian_verbs(text))
# Вывод: ['Решая', 'думая', 'начал', 'петь', 'остановился', 'услышав']

я как написал алгоритм, который первый в голову пришел, нейронка тож самое накалякала. а если она думает как я, то все правильно

rtxtxtrx ★★★
(09.05.25 03:31:00 MSK)
Последнее исправление: rtxtxtrx 09.05.25 03:32:22 MSK (всего исправлений: 1)

Ответ на: комментарий от rtxtxtrx 09.05.25 03:31:00 MSK

Это нейросетка такое выдала? Хороший пример прилично выглядящей хрени.

Во первых, неверный пример использования. С этим примером выдается

['остановился', 'начал']

а не то, что написано что якобы в выводе.

Если внимательно посмотреть на код, то понятно, что остальные глаголы и не могли попасть в список. В коде ошибка, проверка ошибок, приставок, возвратных глаголов должна быть в незасимых секциях, не проверять суффиксы после окончания. Код надо так переписать:

    for word in words:
        original_word = word
        word = word.lower()
        
        if len(word) < 3 or word in exceptions:
            continue
        
        # Проверка по окончаниям
        if any(word.endswith(end) for end in verb_endings):
            verbs.append(original_word)
            continue

        # Проверка характерных суффиксов
        if any(suff in word for suff in suffixes):
            verbs.append(original_word)
            continue
               
        # Проверка приставок
        if any(word.startswith(pref) for pref in prefixes):
            verbs.append(original_word)
            continue
                
        # Для возвратных глаголов
        if word.endswith(('ся', 'сь')):
         base = word[:-2]
         if len(base) >= 2 and any(base.endswith(end) for end in verb_endings):
               verbs.append(original_word)

Тогда он более похожее выдает на пример использования

['думая', 'петь', 'Решая', 'начал', 'остановился', 'задачи', 'услышав']

Но как видно, ошибочно слово задачи из-за приставки «за» добавил.

Во вторых, я уже приводил в теме пример с «Мой дядя самых честных правил». Правил - это глагол или существительное? Этот алгоритм думает, что глагол, а также, что «Дядя» - глагол. Видимо деепричастное =)))))))

['правил', 'дядя']

я как написал алгоритм, который первый в голову пришел, нейронка тож самое накалякала. а если она думает как я, то все правильно

Все неправильно, задача очень нетривиальная и в лоб не решается.

P.S. На словарях, регулярках и функциях с ними, наверное, можно 90-95% точность обеспечить, возможно этого даже и достаточно для каких-то практических целей. Но если хотеть действительно очень точного определения, то придется заморочиться попытками учесть контент и даже смысл.

praseodim ★★★★★
(09.05.25 15:21:19 MSK)
Последнее исправление: praseodim 09.05.25 15:27:23 MSK (всего исправлений: 3)

Ответ на: комментарий от praseodim 09.05.25 15:21:19 MSK

и что? нейронка и не способна выдать сразу лучшее решение.

rtxtxtrx ★★★
(09.05.25 15:35:56 MSK)

Ссылка

Ответ на: комментарий от rtxtxtrx 09.05.25 03:31:00 MSK

Решая задачи и думая о жизни, он начал петь, но вдруг остановился, услышав странный звук.

Чё ты на фигне непонятной тестируешь? Вот норм пример заряди

Дичь тенью скользит по кладбищу.

ya-betmen ★★★★★
(09.05.25 16:24:54 MSK)

Ссылка

По самому слову — в общем случае никак. Только распарсив всё предложение целиком и определив связи между частями речи.

CrX ★★★★★
(09.05.25 16:33:03 MSK)

Ссылка

Ответ на: комментарий от rtxtxtrx 09.05.25 03:31:00 MSK

Вообще не сработает. Если ему нужно и окончание и одновременно с ним или суффикс или приставка или -ся, куча глаголов останется не распознанными как глаголы.

CrX ★★★★★
(09.05.25 16:40:22 MSK)

словарем. ты рофлешь? надо от ИИ языковую модель инсталлировать.

jura12 ★★
(09.05.25 17:14:22 MSK)
Последнее исправление: jura12 09.05.25 17:41:50 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от CrX 09.05.25 16:40:22 MSK

твой то мозг как-то определяет. там, конечно, алгоритм сложнее, но с вычислениями на подкорке, сопроцессором каким-то

rtxtxtrx ★★★
(09.05.25 17:40:07 MSK)

Ответ на: комментарий от rtxtxtrx 09.05.25 17:40:07 MSK

Не просто сложнее, а на много-много порядков сложнее.

Ну и по одному выдернутому из фразу слова не определяет и мозг в общем случае. Только в составе целой фразы. Есть куча слов, которые могут быть и глаголами и другими частями речи. Вот лишь несколько рандомных примеров:

ели пиццу vs росли стройные ели;
бодрый запил на гитаре vs запил таблетку водой;
пропил в изделии vs пропил все деньги;
постой и послушай vs остаться на постой;
мечи бисер vs железные мечи;
строй мне дом vs строй солдат;
запой мне песню vs у вас, батенька, хронический запой;
она пила кофе каждый день vs пила двуручная.

И это лишь рандомные примеры, на самом деле таких слов очень, очень много, просто в исключения все руками записать не выйдет. Разве что взять словари и по ним все такие формы автоматически найти.

А если у тебя текст без ударений, то ещё тьма тьмущая прибавляется вроде топи, копи, метал, мести — с разным ударением будет или глагол или существительное.

CrX ★★★★★
(09.05.25 18:14:11 MSK)

Ответ на: комментарий от CrX 09.05.25 18:14:11 MSK

строй солдат тоже неоднозначно. если строй использовать в значении построй. автор вообще хочет тся/ться править. те и глаголы определять просто… а хотя он неизвестно что хочет, но точно уж ему не нужна супер-логика

rtxtxtrx ★★★
(09.05.25 20:21:57 MSK)
Последнее исправление: rtxtxtrx 09.05.25 20:24:31 MSK (всего исправлений: 1)

Ответ на: комментарий от rtxtxtrx 09.05.25 20:21:57 MSK

автор вообще хочет тся/ться править. те и глаголы определять просто… а хотя он неизвестно что хочет, но точно уж ему не нужна супер-логика

«Он сторонит(ь)ся готов» как будешь разбирать?

А с учётом того, что исходное предложение не обязательно строго корректное (иначе зачем его проверять), то там и «птиться какадуй» может встретится.

monk ★★★★★
(09.05.25 21:13:26 MSK)

Ответ на: комментарий от monk 09.05.25 21:13:26 MSK

Или «… может встретиться».

monk ★★★★★
(09.05.25 21:14:51 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← 1 2 →

←	Производительность Flutter в сравнении с нативом

Development

Vim автоматическое преобразование табов в пробелы при :wq

→

Похожие темы