LINUX.ORG.RU

Для Guntello


0

0

По вашей просьбе делаю пост в General по поводу OpenOffice. Мне он нравится и хотелось бы добиться от него большее в плане поддержки русского языка. Вы говорили, что есть инструкции по переводу ispell словарей в их (aspell) формат. Не подскажете?

Заранее благодарен.

★★★

Re: Для Guntello

Вообще-то разработчик, на которого я ссылался ответственен за непосредственную работу проверки орфографии во всем ОО и он постил в почтовую расслыку предложение посотрудничать в создании словарных баз для наших родных языков. В рассылке он смутно говорил о том, что они использую компрессию словарных баз и немного по другому организовывают списки слов, но конкретно как перевести словарную базу в их формат не указывал.
Более того, он именно для ОО хотел найти словарные базы LGPL, т.к. эта лицензия не требует изменения лицензии всего пакета (GPL требует) и т.д.
Я предлагаю послать ему письмо (я могу это сам сделать), чтобы он все-таки дал нам инструкции по конвертированию ispell баз в ихний формат (pspell+компрессия).
Плюс нужно посмотреть, какая лицензия у имеющихся на сегодняшний день словарных баз ispell для русского языка (это я сейчас попробую выяснить).
Дело в том, что саму по себе конвертацию проводить у меня времени наверное не будет...
А вот некоторые менее времякушающие вещи - да.

anonymous ()

Re: Для Guntello

Вообще-то только что - это я был, только забыл вписаться.
И, кстати, имя разработчика и текст его обращения я постил в обсуждение новости, если его удалили, то можно прочитать в удаленных сообщениях. Было это примерно на второй странице обсуждения...

Удачи!

Guntello ()

Re: Для Guntello

Отправил письма Александру Лебедеву (автору лучшего словаря для ispell) и Кевину Хендриксу - разработчику системы проверки орфографии в OpenOffice, будем ждать ответа.

Заодно попросил дать инструкции в любом случае - даже если лицензия не подойдет - тогда мы сможем где-нибудь выложить словарную базу для OpenOffice, и разработчки сошлются на нее, чтобы пользователи могли скачать, установить и использовать.

Guntello ()

Re: Для Guntello

2Guntello. Спасибо! А то я уже начал сам в этом разбирать. Пробовать забивать русский словарь в ручную. Мой email: dederer-a@mail.ru пиши обязательно!

Буду ждать новостей с фрона OpenOffice. :^)

Korwin ★★★ ()

Re: Для Guntello

Давайте адресок, попробуем сконвертить украинскую базу.

"Andriy Dobrovol's'kii" <dobr@iop.kiev.ua>

anonymous ()

Re: Для Guntello

2All. Значит так. Инфу на эту тему пока не получил. Пришлось все далеть ручками. Сделал на Perl скриптик вытаскивающий слова из ispell словаря. И начал загонять ручками в OO638C. Сразу возникли 2 проблемы. Пользовательские словари ограничены по размеру. Поэтому приходится делать серию словарей. Сейчас уже 35 их, а загнал только процентов 23 от общего объема... И к этому еще, то что проверка делается с учетом регистра. Т.е. для Слов с Заглавной Буквы надо отдельно загонять.... :-((((( Короче. Сейчас на этом движке возможно сделать проверку национальных языков, но жутко неудобно ИМХО. Может Gnutello поможет и все таки что-нибудь все вместе придуемаем?

Korwin ★★★ ()

Re: Для Guntello

Значит так. Запихал я весь словарь ispell в OO638C. Работает, криво, но работает. Всплыла еще одна очень нехорошая вещь. В ispell есть так называемая affix. Она, если просто сказать, делает из ROOT слов словоформы. Т.е. чтобы в словарь их все не тащить она делает на их основе правила, чем сильно уменьшает размер хеша. Так вот словарь я вытащил и, естественно, без всех словоформ. Поэтому он очень много слов пропускает :-(( Как вытащить все слова со всеми словоформами я не нашел. Поэтому надо все таки выяснить у ребят из OpenOffice как правильно конвертировать словоформу.

Если кому надо мой текущий результат, то могу выслать или подскажите где выложить. Размер - 1.3Mb в арихиве.

Korwin ★★★ ()

Re: Для Guntello

Уффф. Короче. Нашел способ вытащить все что только можно из ispell. Вытаскиваются даже неправильные словоформы :-). Их, естественно отфильтровываем. Получаем боольшущий файл со всеми уникальными словоформами. Пока его еще не получил - долгий процесс. Потом буду заливать в OO.

Guntello. Очень бы хотелось узнать как из OO user dictionary сделать нормальный словарь для OO без ограничений на размер и Suggestions. Без этого будет очень неудобно пользоваться моим трудом, а жаль.

Korwin ★★★ ()

Re: Для Guntello

Рад, что вы так быстро окликнулись: новости от Кевина следующие:
Русским словарем уже занимаются следующие люди:
Roman S <rromas@mailru.com>
Alexandre Prokoudine <techwriter@tamb.ru>
Разумеется теперь самое время им помочь.. С Романом я уже связался.

Инструкции по поводу словарей хранятся по адресу: http://whiteboard.openoffice.org/lingucomponent/index.html

Кевин рекомендовал для словарных быз использовать кодироваку iso8859-5 и обещал, что проверка орфографии будет работать во всех кодировках и конвертация будет проходить на лету (просто они любят стандарты), а само внутренне представление документов - юникод.

Несмотря на это Роман мне написал о том, что они планируют сделать словарную базу для русского языка (по мотивам словаря Лебедева) в кодировке ср-1251.

Более того, Кевин написал, что лицензия играет решающее значение чтолько для помещения словарной базы в дистрибутив ОО (как я и предполагал ранее), а если словарные базы будут под лицензией GPL, то нужно будет послать Кевину данные об этой словарной базе, а он включит ее поддержку (кодировки, локали и т.д.). А если словарная база будет LGPL - они включат ее в дистрибутив..
По поводу русской словарной базы кажется все..

По поводу более необходимой мне в работе словарной базы проверки орфографии для украинского языка:
http://sourceforge.net/projects/ispell-uk
адрес проекта, которым занимаются Дмитро Ковальов & Андрiй Рисiн.
Андрей! Я с Вами свяжусь по e-mail.

Есть еще желающие? Присоединяйтесь!

Guntello ()

Для Guntello

Пардон, что информация краткая и неполная (машина не моя), но может поможет:

ОО 638 на RH7.0 ( выбран вариант с установкой KDE) Проблема: Стандартная установка ОО грохается при регистрации библиотек (в установочном каталоге кор-файл), при запуске soffice.bin на экране - тишина, ps -aux демонстрирует факт запуска данного бинаря, остальные 2 проги работают нормально. При минимальной установке - все нормально. Пробовали, я так понял, разные варианты (от рута в /usr/local и от обычного пользователя в /home/user/OpenOffice638) - разницы никакой. Юзают мин установку и довольны.

Андрей

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.