LINUX.ORG.RU
ФорумTalks

Тролледетектор v0.0.2


0

3

по следам http://www.linux.org.ru/forum/talks/3893562
для Ъ: брался топик и отрисовывался граф сообщений, кто с кем разговаривает

в новой версии берутся все сообщения одного человека, считаются кол-во вхождений разных слов и для наиболее часто встречающихся отрисовывается облочко слов, выглядит например так:
http://img-fotki.yandex.ru/get/5803/hizel.0/0_4674d_afa30cdb_orig

сразу видно, что я freebsd-эшник

исходники: https://bitbucket.org/hizel/trololo
исполняемый файл: lor-word.py
зависимости:
dev-lang/python
dev-python/pygame
dev-python/beautifulsoup
dev-python/mechanize
dev-python/simplejson

в разаботке использовался модифицированный https://github.com/atizo/PyTagCloud

лицензионная чистота продукта не известна
чтобы по десять раз не тянуть все сообщения, на каждый уникальный nick создается файл '%s.cache' % cache

надо будет еще переделать, чтобы использовался delete_comment.jsp

★★★★★

Ответ на: комментарий от matich

Судя по словам, вас сильно волнуют открытые дрова для АТИ.

P.S. А вообще, маяковщина какая-то-

Если
Работает
OpenGL -
Linux 
     только
           ubuntu!

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

Уже не волнуют. А ещё там читается в строчку
«Есть только gentoo»

matich
()
Ответ на: комментарий от redgremlin

расположение слов случайно, при следующей генерации по тем же данным может отличатся, постоянны только размеры слов

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

А дядя Вова никуда не делся -
[code]
Работает
linux
OpenGL лучше
[/code]

redgremlin ★★★★★
()
Ответ на: комментарий от frak

Да где там, разве что у фейлософа ДТ сильно проявился :)

Xenesz ★★★★
()
Ответ на: комментарий от frak

хорошо-бы набрать статистики и выделить архетипы: talks-тролль, news-тролль, lisp-тролль, tcl-тролль, модератор :-)

hizel ★★★★★
() автор топика

Так-с! А оно один и тот же топик по нескольку раз читает, что ли? Вот если в одной теме много каментов, например.

shimon ★★★★★
()
Ответ на: комментарий от shimon

>Так-с! А оно один и тот же топик по нескольку раз читает, что ли? Вот если в одной теме много каментов, например.
да, каждый раз тащит всю страничку

hizel ★★★★★
() автор топика
Ответ на: комментарий от ky-san

>И не стыдно такой код писать и выкладывать на показ?

вi мой код хоть видели?

Твоими стараниями куча людей ддосят лор


^_^

hizel ★★★★★
() автор топика

новая версия выдаёт это

Traceback (most recent call last):
  File "./lorparser.py", line 261, in <module>
    create_image(cache, imgname)
  File "./lorparser.py", line 186, in create_image
    content_text, time = commentparse(content)
  File "./lorparser.py", line 123, in commentparse
    text.sign = comment_sign.text
NameError: global name 'text' is not defined
matich
()
Ответ на: комментарий от hizel

> вi мой код хоть видели?

Да, в последних версиях уже получше. Первые - просто дичайший ужас...

> Твоими стараниями куча людей ддосят лор

^_^

Ну вот, я так и думал.

ky-san
()
Ответ на: комментарий от Xenesz

>А слабо пофиксить чтобы щадяще было?

А слабо патч прислать? Где у меня ДДоСовитость? Тихонечко и последовательно тяну-потягиваю по пучку-страничек в секунду.

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

А теперь это вылезает

 Traceback (most recent call last):
 File "./lorparser.py", line 261, in <module>
 create_image(cache, imgname)
 File "./lorparser.py", line 203, in create_image
 tags_topics = make_tags(counts_topics)
 File "/home/matich/trololo/pytagcloud/__init__.py", line 100, in make_tags
 maxcount = max(counts)
 ValueError: max() arg is an empty sequence
 

matich
()
Ответ на: комментарий от hizel

> это видимо у человека без топиков, как мне воспроизвести?

Например, антихриста пропарсить (Antichrist)

shimon ★★★★★
()

когда мало комментов и много равнозначных слов - pytagcloud задумывается на вечно :-(

hizel ★★★★★
() автор топика

Кстати, идея для парсилки

Считать за одно слово слова с рядом идущей частицей «не».

А то большое «нужно» в центре многих облаков — на самом деле «не нужно».

shimon ★★★★★
()
Ответ на: Кстати, идея для парсилки от shimon

большое «нужно» в центре многих облаков — на самом деле «не нужно».

А «можно»? Ох, зачем я спросил...

Xenesz ★★★★
()

теперь банановая гадалка по топикам

./lorwordcloud.py drawtopic -u "http://www.linux.org.ru/forum/talks/6044815" -i detect -c 150
ERROR:root:for create image need fetch topic
WARNING:root:zero comments

./lorwordcloud.py fetchtopic drawtopic -u "http://www.linux.org.ru/forum/talks/6044815" -i detect -c 150

http://img-fotki.yandex.ru/get/4513/hizel.0/0_46ae2_62405fae_orig

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

Одностраничные треды не парсит

./lorwordcloud.py fetchtopic drawtopic -u 'http://www.linux.org.ru/forum/talks/6055760' -i detect -c 150
Traceback (most recent call last):
  File "./lorwordcloud.py", line 129, in <module>
    fetchonetopic(options.url)
  File "/home/matich/trololo/lorparser.py", line 353, in fetchonetopic
    for page in pages:
UnboundLocalError: local variable 'pages' referenced before assignment

matich
()
Ответ на: комментарий от matich

если много равнозначных слов уходит в бесконечный цикл еще, надо будет разбираться

hizel ★★★★★
() автор топика
7 сентября 2011 г.
Ответ на: комментарий от hizel

В списке употребимых слов ничего про Linux даже близко нет.

Зато теперь мы знаем, как выглядят кухарки, которые управляют государством. :)

kid_lester
()
Ответ на: комментарий от hizel

У дебиана питон заговорённый. От дурного глаза, от дурного уха и от тролледетектора.

kid_lester
()
Ответ на: комментарий от kid_lester

как только родим йожи^WLORAPI и вообще у меня подозрение, что не надо парсить весь форум, а достаточно правильно дернуть поисковый индекс

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

> ваша невинная простота меня убивает

Пообещай процент от прибыли. Проведи рекламную акцию. Привлеки ярых общественников. Пообещай митинг.

kid_lester
()

Прошу меня отдетектить)

coldy ★★
()
Ответ на: комментарий от kid_lester

>Кстати, оно по прежнему требует pygame 1.9.1, и поэтому несовместимо с Debian и прочими?

в README есть рецепт для таких случаев, только какой нибудь python-dev и build-essential поставить

hizel ★★★★★
() автор топика

Я так понимаю, качать надо все свои сообщения? 25327 штук?? Доолго!!!

Eddy_Em ☆☆☆☆☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.