Haskell, монады, память, и все-все-все

7

2

Есть задача - пройтись по текстовому файлу и найти максимальное число одинаковых последовательно идущих строчек. Задача весьма синтетическая, просто надо продемонстрировать, что

Потоково обрабатывается некий объем данных;
Есть состояние - надо помнить предыдущую строку в файле при обращении к следующей.

Решение в лоб на IORef-ах (m1.hs):

module Main where

import Data.IORef
import Control.Monad (forM)

main :: IO ()
main = do
   input    <- getContents
   lastLine <- newIORef (Nothing)
   counter  <- newIORef (0)
   result   <- newIORef (0)

   let incr    = modifyIORef counter (\x -> x `seq` x+1)
       reset s = do c <- readIORef counter
                    r <- readIORef result
                    writeIORef result (max c r)
                    writeIORef lastLine (Just s)
                    writeIORef counter  1

   forM (lines input) $ \line -> do
     ml <- readIORef lastLine
     case ml of
       (Just s) -> if s == line then incr else reset line
       Nothing  -> reset line

   r <- readIORef result
   putStrLn $ "Largest subsequence of equal lines: " ++ show r

Более модное решение с трансформером StateT (m2.hs):

{-# LANGUAGE GeneralizedNewtypeDeriving #-}

module Main where

import Control.Monad (forM)
import Control.Monad.State.Strict

data AppContext = AppContext { ctxLastLine :: Maybe String
                             , ctxCounter  :: Integer
                             , ctxResult   :: Integer
                             }

initialContext :: AppContext
initialContext = AppContext { ctxLastLine = Nothing
                            , ctxCounter  = 0
                            , ctxResult   = 0
                            }

newtype App a = App (StateT AppContext IO a)
                deriving (Monad, MonadIO, MonadState AppContext)

runApp (App app) = execStateT app

incr :: App ()
incr = do
   cnt <- gets ctxCounter
   modify $ \s -> s { ctxCounter = cnt+1 }

reset :: String -> App ()
reset l = do
   cnt <- gets ctxCounter
   res <- gets ctxResult
   modify $ \s -> s { ctxLastLine = Just l
                    , ctxCounter  = 1
                    , ctxResult   = max res cnt
                    }

processLine :: String -> App ()
processLine line = do
   ll <- gets ctxLastLine
   case ll of
      (Just s) -> if line == s then incr else reset line
      Nothing  -> reset line

main :: IO ()
main = do
   input <- getContents
   s <- runApp (forM (lines input) processLine) initialContext
   putStrLn $ "Largest subsequence of equal lines: " ++ show (ctxResult s)

Интересно, как поведут себя оба варианта на обработке, скажем, «Улисс» Джойса (txt, 1.6 MB):

[dmatveev@localhost memq]$ ghc --make m1.hs -rtsopts -prof
[1 of 1] Compiling Main             ( m1.hs, m1.o )
Linking m1 ...
[dmatveev@localhost memq]$ ghc --make m2.hs -rtsopts -prof
[1 of 1] Compiling Main             ( m2.hs, m2.o )
Linking m2 ...
[dmatveev@localhost memq]$ du -sh ulysses.txt
1.6M    ulysses.txt
[dmatveev@localhost memq]$ wc -l ulysses.txt
33055 ulysses.txt
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m1 +RTS -hd -i0.001
Largest subsequence of equal lines: 5

real    0m1.599s
user    0m1.577s
sys     0m0.021s
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m2 +RTS -hd -i0.001
Largest subsequence of equal lines: 5

real    0m19.360s
user    0m19.123s
sys     0m0.091s

ШОК! Посмотрим, что там с памятью:

[dmatveev@localhost memq]$ hp2ps -e8in -c m1.hp
[dmatveev@localhost memq]$ hp2ps -e8in -c m2.hp

m1.png, m2.png

Очевидно, что во втором примере что-то течёт, а я что-то глобально упустил.

Вопросы:

ЧЯДНТ?
Как быть?
Как правильно готовить монадические ивентлупы с изменяемым состоянием?

З.Ы. Да, я знаю, что на awk это решается проще и быстрее, суть-то не в этом, а в вопросе №3. Извините за неровный почерк.

Ссылка

← Добавляем текст к буферу копирования

Неблокирующий SQLite →

Чуть не забыл, ghc 7.0.4 (то, что есть под рукой)

yoghurt ★★★★★
(01.10.14 09:12:02 MSK) автор топика

Ссылка

Код не читал, но это не хацкель. В IORef значение ленивое и нужно его форсить руками иначе ьедет thunk leak. Код на хацкеле напишу чуть позже.

qnikst ★★★★★
(01.10.14 09:27:26 MSK)
Последнее исправление: qnikst 01.10.14 09:27:42 MSK (всего исправлений: 1)

Ответ на: комментарий от qnikst 01.10.14 09:27:26 MSK

В IORef значение ленивое и нужно его форсить руками

\x -> x `seq` x+1 же есть (в моей base версии нет strict-варианта). Или этого недостаточно?

Код не читал, но это не хацкель.

Прочитай вопросы (в конце) и то, что нужно продемонстрировать (в начале). Меня не интересуют бесточечные однострочники :) Меня интересует именно вот такая императивщина.

yoghurt ★★★★★
(01.10.14 09:37:08 MSK) автор топика

Можно использовать Conduit, ну просто чтобы не изобретать велосипед и не ломать голову над теми проблемами над которым ломали голову авторы https://www.fpcomplete.com/school/to-infinity-and-beyond/pick-of-the-week/con...

С другой стороны, интересно разобраться в чем тут проблема, чуть позже, если будет время попробую покопаться.

zinfandel ★★
(01.10.14 09:51:54 MSK)
Последнее исправление: zinfandel 01.10.14 09:52:11 MSK (всего исправлений: 1)

Ответ на: комментарий от yoghurt 01.10.14 09:37:08 MSK

Или этого недостаточно?

вроде нет, или atomicModifyIORef', или посмотри как сделана строгая версия в новых base. Т.к. тут у тебя `seq` внутри функции модификации, а должен быть снаружи.

имеративщина

По разным причинам императивщина и мутабельщина в хацкеле работает хуже, чем чистые функции, поэтому правило №1 везде стараться избегать мутабельного состояния, правило №2 следить за строгостью. Поэтому сначала я бы все же привел базовое решение, как оно должно быть, а потом поверх него пытался разбирать такую задачу.

qnikst ★★★★★
(01.10.14 09:53:16 MSK)

Ответ на: комментарий от zinfandel 01.10.14 09:51:54 MSK

чтобы говорить о том, что проблема именно с кондуитами хорошо бы иметь вывод графика занимаемой памяти по типам данных, и если проблема в том, что много занимается String - то да, помогут.

qnikst ★★★★★
(01.10.14 09:55:09 MSK)

Ответ на: комментарий от yoghurt 01.10.14 09:37:08 MSK

Действительно, даже в m1.hs был маленький танк лик, спасибо за замечание. Наверное пофиксил:

module Main where

import Data.IORef
import Control.Monad (forM)

main :: IO ()
main = do
   input    <- getContents
   lastLine <- newIORef (Nothing)
   counter  <- newIORef (0)
   result   <- newIORef (0)

   let incr    = modifyIORef counter (\x -> x `seq` x+1)
       reset s = do c <- readIORef counter
                    r <- readIORef result
                    writeIORef result   $! (max c r)
                    writeIORef lastLine $! (Just s)
                    writeIORef counter  1

   forM (lines input) $ \line -> do
     ml <- readIORef lastLine
     case ml of
       (Just s) -> if s == line then incr else reset line
       Nothing  -> reset line

   r <- readIORef result
   putStrLn $ "Largest subsequence of equal lines: " ++ show r

Стало ещё быстрее и компактнее (png):

[dmatveev@localhost memq]$ time cat ulysses.txt | ./m1 +RTS -hd -i0.001
Largest subsequence of equal lines: 5

real    0m0.807s
user    0m0.794s
sys     0m0.015s

Вот эта синяя штука на графике, которая растёт - тоже лик?

Но проблема-то всё равно с m2.hs.

yoghurt ★★★★★
(01.10.14 10:00:07 MSK) автор топика

Ответ на: комментарий от qnikst 01.10.14 09:55:09 MSK

Да. Сейчас еще раз поглядел, возможно кондуиты тут и не помогут. Мозг увидел слова «поток», «память» и среагировал кондуитами.

zinfandel ★★
(01.10.14 10:00:26 MSK)

Ссылка

Ответ на: комментарий от qnikst 01.10.14 09:53:16 MSK

т.е. для начала сделать:

module Main where

import Control.Applicative
import Data.List

main = print =<<  (go <$> getContents)

go :: String -> Int
go = maximum . map length . group . lines

для того, чтобы смотрящие понимали, что ты знаешь, что тут есть правильное решение. Заметь, что память тут не течет и все итеративно.

Сейчас попробую состояние поверх накрутить.

qnikst ★★★★★
(01.10.14 10:04:13 MSK)

Ответ на: комментарий от yoghurt 01.10.14 10:00:07 MSK

В типе данных строгие поля минимум:

State.Strict вычисляет State то WHNF т.е. ApplicationData <thunk> <thunk> <thunk>, таким образом никакого эффекта не дает.

P.S. лично я не люблю строгий стейт, его чаще проще и эффективнее сэмулировать руками, особенно если состояние используется всегда, что-то типа

stateFullComp state (i:nput) = do { smth >>= \s' -> statefullComp s nput}

с необходимым ветвлением и возвращением результата.

В данном случае кстати и Data.Foldable хватило бы.

qnikst ★★★★★
(01.10.14 10:08:48 MSK)

Ссылка

Ответ на: комментарий от qnikst 01.10.14 10:04:13 MSK

Я на днях вот такое открытие сделал.

main = interact (show . go)

Edit: s/iterate/interact/

zinfandel ★★
(01.10.14 10:09:34 MSK)
Последнее исправление: zinfandel 01.10.14 10:11:12 MSK (всего исправлений: 1)

Ответ на: комментарий от yoghurt 01.10.14 10:00:07 MSK

сюда-же забудь о `forM` из Control.Monad и используй Data.Traverable/Data.Foldable.

qnikst ★★★★★
(01.10.14 10:10:42 MSK)

Ответ на: комментарий от qnikst 01.10.14 10:04:13 MSK


[dmatveev@localhost memq]$ cat m3.hs
module Main where

import Control.Applicative
import Data.List

main = print =<<  (go <$> getContents)

go :: String -> Int
go = maximum . map length . group . lines
[dmatveev@localhost memq]$ ghc --make m3.hs -rtsopts -prof
[1 of 1] Compiling Main             ( m3.hs, m3.o )
Linking m3 ...
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m3 +RTS -hd -i0.001
5

real    0m4.476s
user    0m4.402s
sys     0m0.055s

Течёт: png

yoghurt ★★★★★
(01.10.14 10:10:49 MSK) автор топика

Ответ на: комментарий от zinfandel 01.10.14 10:09:34 MSK

я вот паттерны, где scan-ы использовать надо никогда не вижу. Причем когда это во всяких задачках - то это пофиг, а вот когда при создании обработчика потока в netwire, например, это уже не приятно. Хоть заставить кого-нибудь придумать упражнения на это.

qnikst ★★★★★
(01.10.14 10:12:57 MSK)

Ссылка

Ответ на: комментарий от yoghurt 01.10.14 10:10:49 MSK

Не течет: http://i.imgur.com/KO8Yegc.png

qnikst ★★★★★
(01.10.14 10:15:00 MSK)

Ответ на: комментарий от qnikst 01.10.14 10:15:00 MSK

Опачки. Какая у тебя версия ghc?

yoghurt ★★★★★
(01.10.14 10:15:34 MSK) автор топика

Ответ на: комментарий от yoghurt 01.10.14 10:15:34 MSK

7.8.3, ты с -O собирал? просто иначе list deforestation не сработает, т.к. оно на rewriting rules основано.

qnikst ★★★★★
(01.10.14 10:16:38 MSK)

Ответ на: комментарий от qnikst 01.10.14 10:16:38 MSK

Я собираю просто ghc --make m3.hs -rtsopts -prof. Как, говоришь, надо?

yoghurt ★★★★★
(01.10.14 10:18:03 MSK) автор топика

Ответ на: комментарий от yoghurt 01.10.14 10:18:03 MSK

ghc --make -m3.hs -O -rtsopts -prof, можно и -O2 но это дольше. Кстати вариант со трансформерами (при строгих полях) у меня тоже не течет.

qnikst ★★★★★
(01.10.14 10:19:35 MSK)

Ссылка

Ответ на: комментарий от yoghurt 01.10.14 10:18:03 MSK

Меняешь:

data AppContext = AppContext { ctxLastLine :: !(Maybe String)
                             , ctxCounter  :: !Integer
                             , ctxResult   :: !Integer
                             }

становится: http://i.imgur.com/mxbzZDH.png

qnikst ★★★★★
(01.10.14 10:21:44 MSK)

ghc 7.0.4

археологические раскопки

dmitry_malikov ★★
(01.10.14 10:30:25 MSK)

Ссылка

Ответ на: комментарий от qnikst 01.10.14 10:21:44 MSK

Так вот оно что. Занятно. Пересобрал всё с -О, получил

[dmatveev@localhost memq]$ ghc --make m1.hs -O -rtsopts -prof
[1 of 1] Compiling Main             ( m1.hs, m1.o )
Linking m1 ...
[dmatveev@localhost memq]$ ghc --make m2.hs -O -rtsopts -prof
[1 of 1] Compiling Main             ( m2.hs, m2.o )
Linking m2 ...
[dmatveev@localhost memq]$ ghc --make m3.hs -O -rtsopts -prof
[1 of 1] Compiling Main             ( m3.hs, m3.o )
Linking m3 ...
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m1 +RTS -hd -i0.001
Largest subsequence of equal lines: 5

real    0m0.470s
user    0m0.462s
sys     0m0.011s
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m2 +RTS -hd -i0.001
Largest subsequence of equal lines: 5

real    0m0.471s
user    0m0.465s
sys     0m0.011s
[dmatveev@localhost memq]$ time cat ulysses.txt | ./m3 +RTS -hd -i0.001
5

real    0m0.156s
user    0m0.157s
sys     0m0.005s

...и более-менее ровненькие графики использования памяти. Интересно, то, что по умолчанию оно работает так, а с -O - уже сяк - это баг, или фича? Где можно прочитать про эти оптимизации?

Большое спасибо!

yoghurt ★★★★★
(01.10.14 10:36:27 MSK) автор топика

Ответ на: комментарий от qnikst 01.10.14 10:10:42 MSK

сюда-же забудь о `forM` из Control.Monad и используй Data.Traverable/Data.Foldable

А где можно почитать именно про принципиальную разницу в плане производительности?

yoghurt ★★★★★
(01.10.14 10:42:22 MSK) автор топика

Ответ на: комментарий от yoghurt 01.10.14 10:36:27 MSK

читать про rewriting rules и конкретно тут list deforestation:

Немного излишей инфы, но тут http://www.haskell.org/ghc/docs/7.0.1/html/users_guide/rewrite-rules.html, секция про list fusion это то, что у тебя срабатывает (или нет)
http://www.haskell.org/haskellwiki/GHC/Using_rules
про саму дефорестикацию (не важно, но может быть интересно) http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.51.646

qnikst ★★★★★
(01.10.14 10:54:06 MSK)

Ответ на: комментарий от yoghurt 01.10.14 10:42:22 MSK

в плане производительности нету (насколько я помню), есть в плане общности и правильности реализации

qnikst ★★★★★
(01.10.14 10:55:07 MSK)

Ссылка

Ответ на: комментарий от qnikst 01.10.14 10:54:06 MSK

ну и про оптимизации:

https://www.haskell.org/ghc/docs/7.6.1/html/users_guide/options-optimise.html

qnikst ★★★★★
(01.10.14 10:58:42 MSK)

Ссылка

Для начала поставь восклицательный знак:

ctxResult :: !Integer

Miguel ★★★★★
(01.10.14 11:54:32 MSK)

Ответ на: комментарий от Miguel 01.10.14 11:54:32 MSK

А, блин. Оказывается, уже сказали.

Miguel ★★★★★
(01.10.14 11:56:45 MSK)

Ссылка

Ответ на: комментарий от yoghurt 01.10.14 09:37:08 MSK

use deepseq Luke

Aswed ★★★★★
(01.10.14 12:29:41 MSK)

Ссылка

И ещё. Не совсем по теме, но всё-таки.

Вот так:

   cnt <- gets ctxCounter
   res <- gets ctxResult
   modify $ \s -> s { ctxLastLine = Just l
                    , ctxCounter  = 1
                    , ctxResult   = max res cnt
                    }

писать НЕ НАДО.

А надо так:

   modify $ \s -> s { ctxLastLine = Just l
                    , ctxCounter  = 1
                    , ctxResult   = max (ctxResult s) (ctxCounter s)
                    }

либо так

   cnt <- gets ctxCounter
   res <- gets ctxResult
   put $ \s -> s { ctxLastLine = Just l
                    , ctxCounter  = 1
                    , ctxResult   = max res cnt
                    }

Miguel ★★★★★
(01.10.14 13:16:25 MSK)

Ответ на: комментарий от Miguel 01.10.14 13:16:25 MSK

Спасибо. А чем вариант с put отличается от изначального с modify? Ну, если представить, что в структуре есть ещё другие поля.

yoghurt ★★★★★
(01.10.14 13:20:12 MSK) автор топика

Ответ на: комментарий от yoghurt 01.10.14 13:20:12 MSK

Упс. Извини, насчёт put я наглючил, там должно было быть так:

   cnt <- gets ctxCounter
   res <- gets ctxResult
   put $ AppContext { ctxLastLine = Just l
                    , ctxCounter  = 1
                    , ctxResult   = max res cnt
                    }

Вообще, лучше пользуйся modify, только без лишних чтений. Короче и понятнее.

Miguel ★★★★★
(01.10.14 13:34:16 MSK)

Ответ на: комментарий от Miguel 01.10.14 13:34:16 MSK

Ага, ок, понятно

yoghurt ★★★★★
(01.10.14 13:42:21 MSK) автор топика

Ссылка

Поставлю в избранное тред, где люди повышают и повышают уровневость и надежность языка, а потом дебагают утечки памяти. Хороший тред

~~vertexua~~ ★★★★★
(01.10.14 16:25:56 MSK)
Последнее исправление: vertexua 01.10.14 16:28:34 MSK (всего исправлений: 2)

Ответ на: комментарий от vertexua 01.10.14 16:25:56 MSK

Не памяти, а спейса

anonymous
(01.10.14 16:37:36 MSK)

Ответ на: комментарий от anonymous 01.10.14 16:37:36 MSK

Мне похрен

~~vertexua~~ ★★★★★
(01.10.14 16:38:51 MSK)

Ссылка

Ответ на: комментарий от vertexua 01.10.14 16:25:56 MSK

здесь нету утечек памяти, уйди отсюда пожалуйста.

впрочем и дебага тут тоже не было, пришли посмотрели код человека, который не имеет достаточно опыта, и сказали где проблема. Истории где дебаг действительно нужен - тоже бывают, но сравнительно редко.

qnikst ★★★★★
(01.10.14 21:21:28 MSK)
Последнее исправление: qnikst 01.10.14 21:22:52 MSK (всего исправлений: 1)

Ответ на: комментарий от qnikst 01.10.14 21:21:28 MSK

Утечки памяти, это когда занимаемая память твоего приложения растет не так, как мог бы подозревать разработчик алгоритма, а потом взрывается, потому что не влезает в максимум. Вполне похоже на утечку. Как говорится, не едиными неосвобожденными указателями в С...

~~vertexua~~ ★★★★★
(01.10.14 21:24:31 MSK)

Ответ на: комментарий от vertexua 01.10.14 21:24:31 MSK

Утечка памяти этот ситуация когда память становится не доступной для освождения.

На что это кажется тебе похожим - не очень важно. это _очевидно_ что проблема была с неправильным использованием лени и _очевидно_ было решение любому, кто знает язык на уровне ниже среднего или следует общепринятым нормам при написании кода.

Тут есть много других тредов, где ты можешь пригодиться - просто уйди из этого.

qnikst ★★★★★
(01.10.14 21:32:55 MSK)

Ответ на: комментарий от qnikst 01.10.14 21:32:55 MSK

Утечки в хацкеле впрочем при некотором старании тоже можно получить, но это тема отдельного разговора.

qnikst ★★★★★
(01.10.14 21:33:39 MSK)

Ссылка

Ответ на: комментарий от qnikst 01.10.14 21:32:55 MSK

или следует общепринятым нормам при написании кода.

Так это, где про нормы почитать-то? Я со своей базой из RWH про стрикт-поля вообще не знал (может, пропустил) и честно надеялся на State.Strict :(

yoghurt ★★★★★
(01.10.14 21:44:43 MSK) автор топика

Ответ на: комментарий от yoghurt 01.10.14 21:44:43 MSK

Brian O'Sullivan в своём курсе читал, я домой вернусь попробую найти ссылку, и может от себя (хотя я никакой не авторитет) что дописать.

qnikst ★★★★★
(01.10.14 21:49:55 MSK)

Ссылка

Ответ на: комментарий от yoghurt 01.10.14 21:44:43 MSK

А, не ошибся, это Йохан был.. http://johantibell.com/files/haskell-performance-patterns.html

~~vertexua~~ знаком с Йоханом, кстати? А.. хотя он вроде в другом офисе работает.

qnikst ★★★★★
(01.10.14 22:06:19 MSK)
Последнее исправление: qnikst 01.10.14 22:06:44 MSK (всего исправлений: 2)

Ответ на: комментарий от qnikst 01.10.14 22:06:19 MSK

естественно часть этих советов нужна, когда действительно нужно выжимать скорость. А так понимания нормальных форм, строгости/ленивости и правых и левых сверток и как они соотносятся должно быть достаточно.

qnikst ★★★★★
(01.10.14 22:09:36 MSK)