LINUX.ORG.RU
ФорумTalks

как задєтєктить язык тєкста?

 , діскатєка


0

1

буква «Є» - это характерная буква только для украинского языка? можно ли использовать ее, чтобы детектить текст на украинском и вырезать/переводить его автоматически из/в страниц/ах?

Какие еще эффективные методы языкового фильтра можно придумать?

★★☆☆☆

Последнее исправление: shimon (всего исправлений: 6)

Думаю для украинского языка лучше подойдёт «Ї». Такой буквы, кажется, больше ни у кого нет. И используется она достаточно часто.

Stahl ★★☆
()

Гугл зачастую не детектит украинский, а если и детектит, то крайне криво переводит.

Ygor ★★★★★
()
Ответ на: комментарий от ziemin

ЗЫ: щас снесут.

ща поправим чуток :)

А КАПСЛОК ТЕБЯ УСТРАИВАЕТ?

капслок с буквой Є автоматически переводит браузер в схронный режим :)

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от Stahl

Думаю для украинского языка лучше подойдёт «Ї». Такой буквы, кажется, больше ни у кого нет. И используется она достаточно часто.

кстати да. Забыл как-то про эту букву совсем. За одним рыпом спрошу, а официально буква «ґ» еще используется где-то?

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от dikiy

Да. Где-то в 5-6 словах. Угу. Именно так. Причём слова эти нормально произносятся и с обычной «г». Такая вот шутка.

Stahl ★★☆
()
Ответ на: комментарий от Stahl

Да. Где-то в 5-6 словах. Угу. Именно так. Причём слова эти нормально произносятся и с обычной «г». Такая вот шутка.

может, добавить эти слова в алфавит? :)

dikiy ★★☆☆☆
() автор топика

Скажите, авторство dikiy — характерно только для тупняка и нацпола? Каким механизмом можно заменить его темы на топ100 из качественного нацпола имени r_asian?

shimon ★★★★★
()
Ответ на: комментарий от DeVliegendeHollander

А чего это ты вдруг? «Штирлица рвало на Родину», как-то так? :-)

Да я чо-та заметил, что написанное по-украински стал плохо воспринимать. Бугурт начинается, что аж вырезать хочеться. Вот и решил запостить. Но что сука характерно, на устную речь реакция вполне нормальная. Никаких неприятных ощущений.

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от DeVliegendeHollander

Он из Германии ностальгирует по березкам и п-ну, но проклятая гейропа ввинтила ему мощнейший зонд, мешающий вернуться в любимую глубинку, к одухотворенным идейным товарищам кровей столь голубых, что это аж по их лицам видно.

shimon ★★★★★
()
Последнее исправление: shimon (всего исправлений: 1)
Ответ на: комментарий от shimon

Скажите, авторство dikiy — характерно только для тупняка и нацпола? Каким механизмом можно заменить его темы на топ100 из качественного нацпола имени r_asian?

специально зашел в список своих тем. Вроде процентное количество тупняка довольно маленькое...

dikiy ★★☆☆☆
() автор топика

Какие еще эффективные методы языкового фильтра можно придумать?

Насколько большие тексты нужно классифицировать и как много разных языков, на которых они могут быть написаны? Если речь о нескольких словах, то только по набору символов, в том числе уникальных для языка. Можно ещё составить частотные словари букв для языков и сравнивать в соответствующей метрике. Если тексты в много абзацев, можно ещё работать с частотой появления слов.

amomymous ★★★
()
Ответ на: комментарий от shimon

Всё, завожу «цитатник Шимона». :-) Чётко, ясно, афористично. Распечатаю, в красную обложечку, и буду с собой носить.

Не, я почти серьёзно...

DeVliegendeHollander ★★
()
Ответ на: комментарий от DeVliegendeHollander


болею


Эх нашёл время. В мае надо девок...эээ...ухаживать, а ты «болею» :-)


и не говори :( спортивная травма. Но уже потихоньку выздоравливаю.

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от Stahl

Думаю для украинского языка лучше подойдёт «Ї». Такой буквы, кажется, больше ни у кого нет.

Нет, не уникально. Как минимум французский (naïf) и немецкий (naïv) и ещё парачку.

beastie ★★★★★
()
Ответ на: комментарий от beastie

В контексте обсуждения графическая идентичность - по-барабану.

Украинская «йи» - буква в кириллическом диапазоне. Ты же привел латинскую букву с тремой, это дополнительная латиница.

Впервые вижу немецкое «naiv» с тремой. И вообще данную диакритику в немецком в роли тремы (учитель немецкого языка, бакалавр). Акуты и грависы - да, наблюдал во французских заимствованиях. Что, реально в ваших Германиях так пишут?

Bagrov ★★★★★
()

Иди в Википедию на страницу «Украинский алфавит». Щелкай по всем странным буквам. Смотри в статьях о буквах, являются ли они уникальными для украинского. И лучше ознакомься со всеми алфавитами, где также используются нерусские украинские буквы.

Лучше фильтровать по всем нерусским украинским буквам сразу, добавив условные операторы для других букв. Допустим, в белорусском есть «i», есть «ы», но нет «и» и «щ».

Еще лучше - вести подсчет встречаемости для каждой буквы. Есть же смешанные тексты - допустим, научные.

И да, зачем тебе это нужно? В моих интернетах есть только русский и английский.

Bagrov ★★★★★
()

Не изобретайте n-граммные модели, всё уже придумано.

Sadler ★★★
()
Ответ на: комментарий от luke

То, что за ним какой-то пользователь давно записывает, я читал ещё в прошлом году. Правда ник пользователя забыл, скастанули бы, вдруг он уже томик выпустил в печать.

shrub ★★★★★
()

Є встречается в церковнославянском, как позиционный вариант Е.

petrosyan ★★★★★
()
Ответ на: комментарий от Bagrov

Буквально в паре слов, что даже не вспомню ещё примеры. Т.ч. это почти-что забытый атавизм, встречается очень редко. Используется в частности для «разделения» дифтонгов, когда например «ei» должно читаться не «ай», а «еи», пишут «eï».

Про UTF ты конечно прав, хотел только указать, что это графическое начертание не уникально для украинского языка.

beastie ★★★★★
()
Последнее исправление: beastie (всего исправлений: 2)

Можно по буквосочетаниям попробовать детектить. Например, в украинском нет нечитаемых букв (например, «т» в «стн»). Но тут можно напороться на ошибку в русском, и будет ложное срабатывание.

vurdalak ★★★★★
()
Ответ на: комментарий от dikiy

официально буква «ґ» еще используется где-то?

Официально да, на практике обычно не используется. Это аналог русской «ё» — вроде и есть, но никто ее не использует :)

vurdalak ★★★★★
()
Ответ на: комментарий от heilkitty

Слова, в которых она встречается, очень редкие и не употребляются в повседневной жизни. Поэтому не знаю :)

vurdalak ★★★★★
()
Ответ на: комментарий от ramon13666

А еще на гачик почти повсеместно забивают, особенно русскоязычные, которые взрывное Г игнорируют даже в родном языке. «На ганку не палити» (на дверях филологического (!) университета, где я учился), «грунт», «гатунок» - рука так и тянется к красной ручке.

Bagrov ★★★★★
()
Ответ на: комментарий от heilkitty

«ґ» используется в заимствованиях, для передачи звука [g]

а для передачи звука [h] используют обычную «г»

например, Copenhagen - Копенгаґен

это позволяет более точно передавать фонетику языка-донора

BMX ★★☆
()
Ответ на: комментарий от vurdalak

в украинском нет нечитаемых букв

О случаях ассимиляции типа «смiєшся» я умолчу, там «шс» произносится как «ссь». Но вот тебе полноценные нечитаемые:

астма, студентський, баскський, казахський, аванпостний, шiстнадцять, кiстний

В правилах еще много таких случаев: http://litopys.org.ua/pravopys/pravopys2012.htm

Bagrov ★★★★★
()
Ответ на: комментарий от BMX

это позволяет более точно передавать фонетику языка-донора

Собственно, меня интересовало, передаёт ли кто фонетику языка-донора в разговорной речи на практике, а не в правилах.

heilkitty ★★
()
Ответ на: комментарий от BMX

«ґ» используется в заимствованиях, для передачи звука [g]

Обязательна она только в заимстованных именах нарицательных, да и то не всех. В географических названиях - «г» и «ґ» равноправны.

С твоих слов можно подумать, что восстановили в правах харьковское правописание.

а для передачи звука [h] используют обычную «г»

Или «х». Но «гард-рок», «гокей» звучат веселее, хоть и неправильно.

это позволяет более точно передавать фонетику языка-донора

Но зачем? Заимстовованное слово начинает жить своей жизнью, оно - не более чем форк оригинала. К тому же, переход в другую графическую систему - уже колоссальная трансформация, рядом с которой замена буковок ни в какое сравнение не идет.

Bagrov ★★★★★
()
Ответ на: комментарий от vurdalak

Вроди бы, читается «нськ». Но я сам москаль, поэтому могу страдать гиперкоррекцией.

Bagrov ★★★★★
()
Ответ на: комментарий от heilkitty

В том-то и дело, что нет такого правила. Обе буквы нормативны.

Гражданам разрешили проявить европейскость в заимствованных словах. Большинство граждан отморозилось, но те, кто с активной гражданской позицией, побежали рассказывать, что только так и надо.

И пофиг, что на Украине закрепилась в основном русская традиция заимствования, и лишь кое-где польская. Вот назовем Гегеля Геґелєм - и мусор сам собой начнет сортироваться, а девушки станут столь же доступные, как немецкие.

Bagrov ★★★★★
()
Ответ на: комментарий от Bagrov

харьковское правописание

Простите, а это как? Я знаю харьковские слова, но об особом правописании не слашыл (:

vurdalak ★★★★★
()
Ответ на: комментарий от Bagrov

Я слыхал, что в 90х енто правило импортировали в украинский украинский из канадского украинского (самизнаетепочему).

девушки станут столь же доступные, как немецкие

Чёрт, надо срочно реформировать русский язык.

heilkitty ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.