LINUX.ORG.RU

Как вообще определить, что слово - глагол?

 


1

1

Прошло уже более 20 лет с момента создания этой темы - Дополнение к LOR FAQ
хватит терпеть неавтоматизированность этой проверки.

Искины предлагают такое:

  1. использовать лексические базы данных, такие как WordNet (то есть, словари), эти базы должны содержать информацию о части речи;
  2. использовать морфологические анализаторы, такие как pymorphy2 или Natasha;
  3. обучить модель машинного обучения на размеченных данных;
  4. использовать шаблоны и правила, основанные на суффиксах и префиксах, которые часто встречаются в глаголах (но это ненадёжный метод);

Библиотека pymorphy2 написана на python и её будет сложно засунуть в проект на Java, похожий на LOR.

Natasha тоже.

Умеет ли WordNet в русский язык? RuWordNet
Как им пользоваться - вообще неясно, потому что он непубличный:

«Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru.»

Допустим, что в качестве словаря можно скачать викисловарь
<generator>MediaWiki 1.44.0-wmf.25</generator>
что можно дальше сделать на основе этого?

Можно сделать другой, более компактный XML-файл, в котором останутся только глаголы (возможно связанные между собой, там же есть таблицы для форм глаголов и гиперссылки).

Это станет тем самым «размеченным корпусом», на котором надо тренировать нейросеть модель машинного обучения?

Как нейросеть сформирует правила?

Кроме самого слова можно ещё использовать его контекст или контексты, для увеличения вероятности правильного распознавания части речи и выявления факта отношения слова к глаголам. Что-нибудь можно сделать, и что именно?

★★★★★

Последнее исправление: Shushundr (всего исправлений: 6)
Ответ на: комментарий от Shushundr

Не сможет, его на это никто не учил. Вообще у всех алгоритмов машинного обучения есть огромная проблема - мусор на входе - мусор на выходе. Размеченных корпусов текстов крайне мало нынче. А бабла столько сколько в чат гопоту в нейронку для безграмотных никто вливать не будет. Так что варианта будет ровно 2 - терпеть и спрашивать у чат гопоты.

peregrine ★★★★★
()
Ответ на: комментарий от rtxtxtrx

Несёшь дичь.

несёшь - это не глагол, потому что «ёшь» не «ешь».
дичь - это глагол, потому что не «дочь».

Несомненно, что наличие хоть какого-то алгоритма лучше, чем отсутствие любого. Но есть куда улучшать.

Померить ничего нельзя. Сколько процентов правильных ответов? Объяснение по запросу этот код выдать не может.

Входная сигнатура теряет информацию, выходная тем более.

И всё это не Java, которую я просил.

Shushundr ★★★★★
() автор топика

Слово или словоформа?
В языке - слова. В речи - словоформы.
Слова языка определяются или словарём, или некоторым объективным выводом из непустого множества речей. Словоформы - в тексте (в т.ч. устном).

Глагол - «часть речи» по традиции, исторически туповатый термин, т.к. является категорией не только словоформ речи, но и слов языка.

Если глагол рассматриваете как категорию языка, то глагол или принадлежность к глаголу определяется словарём или справочником. См. словарь и сравнивай.
Есть словари, и там бывают перечислены основные словоформы речи и сама принадлежность к глаголу.

Если глагол рассматриваете как категорию речи - флаг в руки - определяете свои критерии, но будьте готовы к неоднозначностям.

И главное.

Мы оперируем мыслеформами, в которых всё: и образ в цвете и с запахом, и словоформы, возможно. Можно и без слов(оформ), с теплом (т.е. с энергией) и с множеством других объективных и идеальных сущностней. Живые тёплые картины.
Речь - это часть мыслеформы.

P.S. Вас устраивает формула, что всё, что создано нашим воображением должно где-то существовать во вселенной?

novus ★★
()
Последнее исправление: novus (всего исправлений: 5)
Ответ на: комментарий от rtxtxtrx
>>> find_russian_verbs("ломать кровать")
['кровать']
vM ★★
()

Глагол в принципе любое слово выражающее действие (ну или бездействие). Поэтому думаю надо проверять именно по данному фактору. Т.е. без анализа контекста это будет не точно.

anonymous_sama ★★★★★
()
Ответ на: комментарий от ya-betmen

В английском при наличии полной фразы глагол (сказуемое) элементарно детектится из знания грамматики.

«Time flies like an arrow; fruit flies like a banana»

frob ★★★★★
()

Глагол - это существительное.

Irma ★★★
()

Решение: пусть нейронка переведет на ифкуиль или что там сейчас модно, а там уже однозначно по форме определяется часть речи.

Irma ★★★
()
Ответ на: комментарий от Irma

Можно сделать проще - метаинформация в рамках ютф к словам. После ввода каждого слова принудительно запрашивать - к какой части речи оно относится. Эта инфа уже будет вложена в каждое слово и не нужно будет определять. Можно будет просто прочитать мета-инфу. Заодном ожно туда записывать размер слова и много чего еще для удобства.

LightDiver ★★★★★
()

pymorphy2 и Natasha совсем плохо понимают русский язык, обнаружил это при автоматизации обработки обращений в письмах, направляешь запрос gemini по бесплатному API - получаешь ответ. Профит.

One ★★★★★
()
Ответ на: комментарий от Shushundr

Несомненно, что наличие хоть какого-то алгоритма лучше, чем отсутствие любого.

Нет, не несомненно. Иногда лучше никакого, чем такой.

CrX ★★★★★
()
Ответ на: комментарий от kott
На меня смотрел чайник — с укором,
а у кошки вдруг вырос парус.
Я пошёл гладить вчерашнее море,
но оно оказалось — Август.

Звёзды звенели, как цепь на руле,
и язык мой ушёл в отставку.
Я нашёл себя в старом тепле
между страхом и клубничной правкой.

чатгпт такого может нагенерить сколько попросишь :D

ЗЫ я даже не знал, что у этого стиля есть название

ergo ★★★
()
Последнее исправление: ergo (всего исправлений: 2)
Ответ на: комментарий от Irma

он ссылается на тему про тся и ться, те нужно проверять только слова с указанными окончаниями и править их… вместо этого он решил для начала все глаголы определить, что в рамках задачи не имеет смысла. это какая-то хрень типа тестового задания, решаемая влоб

rtxtxtrx ★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.