Сообщения division_hell

import numpy as np
import cv2

cap = cv2.VideoCapture(-1)

while True:
    ret, frame = cap.read()
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    cv2.imshow('frame', gray)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

При этом uvccapture без параметров работает, но с таким выхлопом:

root@haterelay:/tmp# uvccapture 
ioctl querycontrol error 22 
ioctl querycontrol error 22 
ioctl querycontrol error 22 
ioctl querycontrol error 22

В dmesg тишина. И всякие guvcview со скайпами выдают правильное видео. Что я делаю не так?

division_hell
(17.09.14 11:21:32 MSK)

2 комментария

Импорт Office Open XML, преобразование (перевод), экспорт в тот же формат

ooxml, parsing, перевод

Возникла задача для локальных нужд написать некий аналог google translate toolkit, который позволяет импортировать docx, odt и т.д., выполнять перевод, а дальше делать экспорт в тот же формат файла с сохранением форматирования.

Зачем? GTT коверкает разметку - как минимум, портит шрифт и игнорирует комментарии.

Есть всякие традосы с memoq, которые грамотно заменяют теги и восстанавливают форматирование, но они под w~ и стоят денег.

Изначально я попробовал скопипастить принцип с omegat, конвертить всю структуру ooxml в текст вида:

<t1/>text <t2/>lol

, где XML-шелуха заменяется на последовательные <t1/>[tail], но иногда возникают проблемы при изменении порядка следования тегов (<t2/>лол <t1/>текст): приходится таскать все эти w:rPr внутри документа. Но и это не особо напряжно. Более актуальна тема с огромным количеством тегов, например, из-за того, что ворд решил сделать такую разметку:

вместо <b>some bold</b> сделать <b>som</b><b>e</b> <b>bold</b>

что после преобразования приобретает вид
<t1/>som<t2/>e <t3/>bold

Давать юзеру такое крайне некрасиво. Причем порой доходит до какого-то полнейшего абсурда, когда стиль применяется побуквенно, что порождает умопомрачительное количество тегов.

Если конвертить параграфы в html, то гарантированно возникают проблемы с обратным преобразованием. Вдобавок придется писать пачку парсеров под каждый формат.

Задача состоит в том, что нужно заменить xml-теги на какие-то линейные сабсты без вложенностей, которые можно скормить переводчику/корректору, а далее восстановить по этим сабстам оригинальное форматирование. Хотел бы поинтересоваться у знакомых с этой темой, как эта задача вообще решается, потому что у меня закончились идеи, как это сделать без написания «честного» парсера под каждый формат.

division_hell
(11.08.14 06:54:28 MSK)

3 комментария

KDE 4.13.3 и сохранение размеров окна

kde, kwin

Переставил систему на SSD. Началась эта проблема: окна отображаются в скукоженном виде и не желают сохранять предыдущие размеры. Это очень сильно бесит.

В «параметры системы -> поведение окон -> особые параметры» можно добавить исключение для какого-то окна. Но для каждого мне это делать очень сильно не хочется. Поэтому вопрос: как это пофиксить и что/где смотреть, ибо раньше все работало, как ожидается.

division_hell
(30.07.14 07:37:43 MSK)

4 комментария

Подвисает сеть на ASUS PCE N15 (rtl8192ce)

rtl8192ce, wireless, подвисает

Суть в том, что постоянно раз в 5-10 минут подвисает коннект на минуту или более (пакеты до шлюза не ходят). Собирал backports(compat-wireless) - не помогло.

На версии ядре 3.12 вот это сняло проблему:

# cat /etc/modprobe.d/rtl8192.conf 
options rtl8192ce ips=0 fwlps=0 debug=2 swenc=1

Обновился до 3.14 (debian jessie) - опять начало подвисать. Поэтому у меня вопросы: 1) что этой дряни надо, 2) что/где смотреть/искать, 3) на что эту дрянь поменять стоимостью до 1.5к деревянных (что без плясок и правок конфигов будет работать, желательно чтоб 100мбит тащило)

Спасибо.

division_hell
(05.06.14 18:22:11 MSK)

7 комментариев

Подсветка терминов из глоссария в тексте

python, sphinx, глоссарий, поиск терминов, стеммер

Есть глоссарий примерно на 500к терминов. Термины могут состоять из нескольких слов, при этом количество слов может быть любым. Есть текст, в котором нужно подсветить (найти) термины. Сейчас сделано в лоб, по тупому: текст разбивается на фрагменты по одному->несколько слов (1-2-3-N). Комбинаций получается очень много. Далее, эти комбинации потенциальных терминов скармливаются пакетно сфинксу. Нашлось что-то - значит термин, подсвечиваем.

Одна из проблем в том, что поиск терминов нужно осуществлять с учетом морфологии, да и fuzzy matching приветствуется. Поэтому на первое время я взял без заморочек сфинкс.

Сейчас есть желание пройтись по глоссарию стеммером и для каждого термина сделать индекс в БД. Дальше пройтись тем же стеммером по тексту и выбрать из базы только те термины, леммы из которых встречаются в тексте. Ну а дальше уже выполнить поиск найденных терминов по тексту, которых уже будет значительно меньше.

Вопрос вот в чем: изобретаю ли я велосипед? Будет ли от этого толк? Какие готовые решения есть?

division_hell
(18.12.13 12:36:28 MSK)

1 комментарий

MySQL - вставка строчки между двумя существующими

django, mysql, python, sql

Задача такая: есть блоки текста в таблице `id | text | created_at | ...`, которые могут быть разбиты на меньшие. Естественно, фрагменты не должны оказаться в конце с наибольшим id (primary_key, autoincrement), потому что по id упорядочивается вывод текста.

update sentences set id=id+1 where id>=6 order by id desc;
insert into sentences (id, name) values (6, 'trash')

Вообще, я думаю, что трогать autoincrement некрасиво, вдобавок я использую django orm, а это значит, что при наличии FK на запись, все ссылки при сдвиге сломаются.

Остается вариант упорядочивать выхлоп выборки по другому полю, например, по priority. Но это лишнее поле, которое еще нужно заполнять вручную, что лень.

Поэтому мне любопытно, как сделать это нормально.

division_hell
(26.11.13 01:46:19 MSK)

14 комментариев

Django-based forum, unread tracking

django, форум

Пишу от скуки еще-один-форум-на-джанге. С трэкингом все более или менее ясно, только вот решение в лоб муторное:


class Object(models.Model):
    user = models.ForeignKey(User, null=True, blank=True, on_delete=models.SET_NULL, verbose_name=_('User'))
    parent = models.ForeignKey('self', null=True, blank=True, related_name='object_parent', verbose_name=_('Parent'))

    created_at = models.DateTimeField(_('Created at'), auto_now_add=True)
    updated_at = models.DateTimeField(_('Updated at'), auto_now=True)
    ip = models.GenericIPAddressField(_('IP'), blank=True, null=True)

    related_object_type = models.ForeignKey(ContentType, blank=True, null=True)
    related_object_id = models.PositiveIntegerField(blank=True, null=True)
    related_object = generic.GenericForeignKey('related_object_type', 'related_object_id')
    # related_object = generic.GenericForeignKey('related_object_type', 'id')

    children_depth_1 = models.PositiveIntegerField(_('Children at depth 1'), default=0)
    children_depth_2 = models.PositiveIntegerField(_('Children at depth 2'), default=0)

    class Meta:
        verbose_name = _('object')
        verbose_name_plural = _('Objects')
        ordering = ['id']

class GenericObjectReadTracker(models.Model):
    user = models.ForeignKey(User)
    generic_object = models.ForeignKey(Object)
    created_at = models.DateTimeField(auto_now=True)

(всё относящееся к форуму наследуется от Object, дабы потом иметь наглядное дерево и ленивые created_at, last_update, автоматические счетчики children, ip, owner: один фиг, почти любая сущность, создаваемая внутри форума, обладает той или иной частью этих полей)

А это значит, что потом нужно этот треш удалять: проверять, а не являются ли уже все топики unread, или является ли весь форум read и т.д. Сама по себе фишка полезная: можно смотреть чем интересуется юзер и на этом делать suggestions для других юзеров, к примеру. Только вот муторно этот код писать. Поэтому любопытно: существуют ли более простые способы трекинга?

division_hell
(04.08.13 17:49:50 MSK)

2 комментария

Highload: fulltext поиск + storage

fulltext search, highload

Есть примерно 1Тб уникальных текстовых строк длиной около <5к символов. Это все нужно сохранить и сделать по этому полнотекстовый поиск, который даст хотя бы 100 результатов в минуту. Крайне желательна поддержка морфологии для популярных языков.

И тут у меня есть 2 вопроса: в чем хранить данные и чем их индексировать. Данные будут сравнительно редко изменяться (хочется избавиться от изменений вообще). Запись в общую базу будет происходить скорее всего чанками по 100 метров из кэша MySQL && Redis. Т.е. хранилище будет на 99.9% перманентным и использоваться будет только для поиска.

Пока посматриваю в сторону sphinx/solr, потому что приходилось их использовать пару раз. А вот как, где и в чем хранить столько данных не имею понятия.

division_hell
(23.01.13 05:30:05 MSK)

5 комментариев

Инкрементальный diff, samba

diff, samba

Для мониторинга телодвижений нужно вещицу, которая умеет искать и дампить различия в docx, xlsx, txt и и.д., а потом патчи слать на мыло.

Пока на ум приходит только создать .yesterday, туда совать все вчерашнее, а на следующий день дергать текст из сегодняшних документов и вчерашних и патчем его. Есть, конечно, идея заюзать svn/git, но docx - зипари [т.е. придется предварительно экстрактить текст в репозитарий по тригу на mtime, а потом делать коммит].

Заморачивался кто-нибудь чем-то аналогичным?

division_hell
(03.12.12 21:24:00 MSK)

10 комментариев

ip видео-камера с ИК-подсветкой

ip camera

Купил dlink dcs 942l. Жалею: ИК-датчик движения постоянно ловит false-positive, другой - почти постоянно. 500 метров видео в день - слишком много. Хочется нечто аналогичное без постоянных false positive за <10 килорублей. Хотелось бы услышать какие-то комментарии по поводу выбора камеры. Ставиться камера будет перед входной дверью в квартиру и может быть на лестничной клетке.

division_hell
(24.09.12 00:13:11 MSK)

6 комментариев

Получить strpos() тэга в исходном xml

lxml, python, xml

Нужно распарсить xml, выдрать оттуда нужные тэги и запомнить смещения этих тэгов от начала исходного xml.

xml выглядит как-то так (docx, pptx, odt и т.д.):

<w:r>
  <w:rPr>
    <w:sz w:val="36"/>
    <w:szCs w:val="36"/>
  </w:rPr>
  <w:t>w</w:t> <!-- :( -->
</w:r>

Нужно получить offset w.

Самоочевидный такой вариант:

from lxml import etree
text = open('/devel/tmp/doc2/word/document.xml', 'r').read()
root = etree.XML(text)

start = 0
for e in root.iter("*"):
    if e.text:
        offset = text.index(e.text, start)
        l = len(e.text)
        print 'Text "%s" at offset %s and len=%s' % (e.text, offset, l)
        start = offset + l

Но если в e.text будет «w», «a» и т.д., то будет найден индекс не тэга, а чего попало.

division_hell
(10.09.12 22:01:29 MSK)

12 комментариев

resize root fs

resize2fs

Если бы это было LVM, то вопрос решался бы просто. Но ставил я ось давно, еще когда-то lenny, который был заапгрейжен в конечном итоге до wheezy. Для наглядности приложен скрин (кстати partition manager не хочет ресайзить партицию) того, что нужно получить: а именно расширить root (sda1) на 20 гиг. 20 гиг были отпилены от ntfs раздела, который в extended на sda2.

Я уже почти готов был написать «resize2fs /dev/sda1 %s», но потом подумал: а поймет ли оно куда ресайзиться? Как мне расширить раздел, чтобы ничего не убить?

division_hell
(07.09.12 01:54:42 MSK)

7 комментариев

any2txt

anything2txt, конвертер

Понадобилось сконвертить пачку разных документов в txt (pdf, xlsx, xls, doc, docx и т.д., короче, все что юзера сейвят на файлопомойку). То что можно по расширению/mime посмотреть и запустить соответствующий xxx2txt знаю. Гуглом не нашел. Может есть уже такое, или велосипед писать?

division_hell
(25.08.12 14:25:25 MSK)

5 комментариев

Acorp wpci-150n (RT3060)

rt3060, wi-fi, wpci-150n

Debian wheezy. Поставил `firmware-ralink`. Гуглил на тему RT3060, пробовал собирать модули (которые убрали с сайта http://www.ralinktech.com/, например 2010_07_16_RT2860_Linux_STA_v2.4.0.0.tar.bz2) - собираются, потом после modprobe система падает, а потом грузится с кучей ошибок.

Ядро - 3.2.0-2-rt-amd64, модуль rt2800pci. Пробовал firmware брать с сайта ралинка - эффект тот же.

По dhcp ip не выдаются. Когда прописал ip статикой, один раз случайно заработало, после ребута перестало. Пробовал без network-manager'а - то же самое. После проб все связанное с wlan0 убирал из /etc/network/interfaces.

Полный лог: http://pastebin.com/UxnHMdn1

( читать дальше... )

На ноуте тоже wheezy и там сеть пашет, настройки везде аналогичные.

У меня три вопроса: 1) почему не хочет подниматься dhcp? 2) почему статика иногда работает, но почти всегда нет (т.е. оно пару раз включалось)? 3) на каких картах нет этих плясок? Я проще выброшу нахрен эту дрянь, если оно не работает из коробки.

division_hell
(19.08.12 02:15:30 MSK)

4 комментария

[Python] Генерация платежных отчетов в docx/odt/pdf

docx, odt, pdf, python, генерация документов

Добрый день.

Нужно генерить акты выполненных работ и счета фактуры, попутно ставить печати/подписи.

0. Правильно ли с бухгалтерской точки зрения втыкать печати с подписями в сгенерированные документы?

1. Насколько эти документы чувствительны к отступам, полям и т.д.? Т.е. может ли документ считаться невалидным, если у него косяки с отступами?

2. Есть ли какое-нибудь API по генерации подобных документов по шаблонам?

3. Если использовать docx->pdf, то корректно ли будет просто пройтись sed'ом по зипу с docx и зареплейсить шаблонные строки?

4. Если кто-то для этой цели использовал какие-то конкретные решения, то поделитесь плиз. Тема хоть на первый взгляд и простая..

p.s. когда уже документы будут с выглядеть как QR-коды, к примеру. Взял, сунул id'шник документа в json с данными в qr-код, а на месте он сам бы сгенерился по шаблону и данным. И никакого распознания. И всякие ООО оформлялись бы через `apt-get install ooo-vector-m-base`...

division_hell
(03.08.12 13:01:49 MSK)

5 комментариев

rsync удаляет открытые файлы

rsync, открытые файлы

Есть 3 сервака, которые сливают записи на 1 хранилище. Никакой пост-обработкой данных серваки не занимаются, поэтому данные эти там не впились, их проще сразу снести.

/usr/bin/rsync -raz --progress --size-only --remove-sent-files /projects/recordings/ site.com:/var/www/storage/recordings/

Все было бы прекрасно, но rsync копирует (и удаляет) и файлы, которые не были закрыты, т.е. те, в которые еще происходит запись. А софт потом ругается, мол: агдефайл?

Я решил lsof'ом посмотреть что там не закрыто, кинуть файлы в exclude list для копирования rsync и радоваться жизни. Получилось что-то такое:

# выхлоп вида /projects/recordings/<uid>/<path>/2012-07-16 13:24:32.646970-<id>.WAV
lsof | grep /projects/recordings/.\\+\\.\\S\\+ -o | sort | uniq > /tmp/rsync.exclude

/usr/bin/rsync -raz --progress --size-only --remove-sent-files --exclude-files=/tmp/rsync.excldude /projects/recordings/ site.com:/var/www/storage/recordings/

# поменяем владельца на помойке
ssh storage@site.com chown -hR storage:storage /var/www/storage/recordings

Но rsync видимо хочет увидеть там шаблоны (--exclude-from=FILE read exclude >>patterns<< from FILE), а не абсолютные пути.. да еще и с пробелами. И тут меня все опечалило.

Поэтому есть 2 вопроса: 1) что можно взять вместо rsync (что умеет не трогать открытое) 2) как rsync обучить не трогать чужое

division_hell
(16.07.12 21:37:30 MSK)

16 комментариев

Web file browser

django, file manager, user specific

Добрый день. Нужно юзерам дать возможность сёрфить структуру каталогов вида:

<uid>/processed_data_type_1/<file_list>
<uid>/processed_data_type_2/<file_list>

Ищется что-то типа AJAXPlorer, но только для Django, потому что не хочется использовать что-то кроме питона, ибо зоопарк, и потому что юзеру придется дважды логиниться (либо придется изобретать какой-то механизм переноса сессий).

Видел django-filebrowser и django-fileman, первое имхо не очень подходит для цели, второе старое.

division_hell
(26.06.12 14:37:14 MSK)

8 комментариев

Тормозит переключение вкладок в Chrome 20+- диагностика

chrome

Debian Wheezy, KDE 4.7.4

# uname -a
Linux MITOL 3.2.0-2-rt-amd64 #1 SMP PREEMPT RT Fri Jun 1 18:41:20 UTC 2012 x86_64 GNU/Linux
# google-chrome --version
Google Chrome 20.0.1132.34 beta

На RT ядро не грешить: я его поставил недавно, чтобы слегка победить вышеобозначенные тормоза.

Пробовал разные ветки, стабильную тоже. Кэши и прочее очищал, пакет пуржил. Глюк возник как-то сам собой, судя по всему, после какого-то из апдейтов (месяц назад или ололо того). Тогда я не придал значения тормозам, потому что конвертил видео в фоне, думал из-за этого.

Вопрос в методах диагностики: как понять что выступает в роли ручника при переключении вкладок? Форумы и прочее парсил, но там обычно про тормоза под w~

P.S. Новая вкладка открывается ~2с, переключения с лагом в 0.5с. Тачка - core i3, 16gb, gt240. Всякие gl-расширения хрома включены. Отключать пробовал - разницы никакой.

division_hell
(16.06.12 23:33:56 MSK)

18 комментариев

Система группового перевода текстов

онлайн, перевод

Есть тема для перевода текста описаний пакетов в Debian. А есть такое же, только с поддержкой перевода текста частями?

К примеру, взял я, выделил первые 2 предложения, вбил перевод. Потом Петя перевел 4-5 предложения, а Вася взял да и перевел целый абзац, поглотив все предыдущие переводы. Потом Маша добавила в стек [петин_абзац_минус_одно_предложение:4]. Ну и так далее. Есть ли что-нибудь такое?

division_hell
(05.05.12 13:36:49 MSK)

11 комментариев

следующие →

RSS подписка на новые темы