Теоретический вопрос: изменение файла

Most languages / file systems don't let you truncate the beginning of file.

придется переписать, либо если свободного меств нет сделать такой трюк:

mmap его, пройтись по нему перевернув файл, truncate, пройтись опять перевернув файл.

dilmah ★★★★★
(17.12.09 16:29:44 MSK)

Ответ на: комментарий от dilmah 17.12.09 16:29:44 MSK

>mmap его, пройтись по нему перевернув файл, truncate, пройтись опять перевернув файл.

Клево, я бы не додумался =)

yoghurt ★★★★★
(17.12.09 16:38:00 MSK)

Ссылка

Думаю что надо по любому. Представим такую ситуацию: файл в файловой системе представляет собой последовательность 5-и блоков по 1024 байта. Надо удалить 1 байт в начале. По любому надо будет двигать все байты во всех пяти блоках.

Я не знаю суть задачи которая должна быть решена. Но может лучше использовать файл как FIFO/очередь. Т.е. делаем файл фиксированного размера. В начале файла храним два числа: смещение «головы» и смещение «хвоста». При добавлении в очередь некоторого числа байт размещаем данные в «хвост» и увеличиваем смещение «хвоста». Извлекаем байты соотвественно из «головы». Если смещение должно выйти за пределы установленного размера, то смещение сбрасывается на начало блока.

pathfinder ★★★★
(17.12.09 16:38:13 MSK)

Ответ на: комментарий от dilmah 17.12.09 16:29:44 MSK

>mmap его, пройтись по нему перевернув файл, truncate, пройтись опять перевернув файл.

Интересное решение. Только непонятно зачем проходиться по файлу дважды? Можно ведь file_array[i]=file_array[i+num_to_delete] для каждого байта файла сделать (за исключением последних байт)

pathfinder ★★★★
(17.12.09 16:45:23 MSK)

Ответ на: комментарий от pathfinder 17.12.09 16:45:23 MSK

> Можно ведь file_array[i]=file_array[i+num_to_delete] для каждого байта файла сделать (за исключением последних байт)

man memmove он умеет копировать перекрывающиеся области памяти.

anonymous
(17.12.09 17:18:42 MSK)

Ссылка

Ответ на: комментарий от pathfinder 17.12.09 16:45:23 MSK

точно

dilmah ★★★★★
(17.12.09 17:26:59 MSK)

Ссылка

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

> Но может лучше использовать файл как FIFO/очередь.

Или просто хранить записи в отдельных файлах. Если там записи, а не просто поток байтов.

const86 ★★★★★
(17.12.09 17:27:02 MSK)

Ссылка

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

> Думаю что надо по любому. Представим такую ситуацию: файл в файловой системе представляет собой последовательность 5-и блоков по 1024 байта. Надо удалить 1 байт в начале. По любому надо будет двигать все байты во всех пяти блоках.

Исходя из этого и возник вопрос =)

exst ★★★★★
(17.12.09 17:42:51 MSK) автор топика

Ссылка

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

> Я не знаю суть задачи которая должна быть решена. Но может лучше использовать файл как FIFO/очередь. Т.е. делаем файл фиксированного размера. В начале файла храним два числа: смещение «головы» и смещение «хвоста». При добавлении в очередь некоторого числа байт размещаем данные в «хвост» и увеличиваем смещение «хвоста». Извлекаем байты соотвественно из «головы». Если смещение должно выйти за пределы установленного размера, то смещение сбрасывается на начало блока.

А не выйдет ли это дольше чем считать весь файл/записать?

exst ★★★★★
(17.12.09 17:44:45 MSK) автор топика

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

> Думаю что надо по любому. Представим такую ситуацию: файл в файловой системе представляет собой последовательность 5-и блоков по 1024 байта. Надо удалить 1 байт в начале. По любому надо будет двигать все байты во всех пяти блоках.

Как по мне то все зависит от ФС и ее реализации. Можно представить себе такой вариант в котором эта операция будет дешевой:
Пусть в иноде хранится указатель на первый кластер файла и смещение в нем. Тогда при обрезании головы файла мы можем легко переместить его начало на 1 байт изменив лишь смещение.

urxvt ★★★★★
(17.12.09 17:50:57 MSK)

Ответ на: комментарий от urxvt 17.12.09 17:50:57 MSK

> Как по мне то все зависит от ФС и ее реализации.

Пусть в иноде хранится указатель на первый кластер файла и смещение в нем. Тогда при обрезании головы файла мы можем легко переместить его начало на 1 байт изменив лишь смещение.

Вот уж ололо так ололо. Ну расскажи, каким системным вызовом будет производится операция удаления первого байта? remove_first_byte()?

LamerOk ★★★★★
(17.12.09 18:09:27 MSK)

Ответ на: комментарий от urxvt 17.12.09 17:50:57 MSK

> Как по мне то все зависит от ФС и ее реализации. Можно представить себе такой вариант в котором эта операция будет дешевой

вообще, по сути дела ФС это такой персистентный STL:) В 21 веке можно ожидать поддержки и чего то большего чем вектор:)

dilmah ★★★★★
(17.12.09 18:17:44 MSK)

Ссылка

Ответ на: комментарий от LamerOk 17.12.09 18:09:27 MSK

Мм... Значит откат.

urxvt ★★★★★
(17.12.09 18:25:45 MSK)

Ссылка

Ответ на: комментарий от exst 17.12.09 17:44:45 MSK

>А не выйдет ли это дольше чем считать весь файл/записать?

Ты видимо вообще не понял о том, что я говорил. Скорость - это как раз таки главное достоинство этого метода. Тут по барабану удаляем некоторое количество байт из файла размером 10 кб или из файла размером 10 Гб. Если файл будет очень большим, то предложенный вариант с memmove() загнется.

Недостатком предложенного мной метода является то, что файл имеет имеет свою структуру, а не просто один к одному массив исходных байт. Так же недостатком является то, что на реализацию функций для работы с таким файлом-очередью потребуются напрячь (ненадолго) мозг.

Инструкция:

1. http://ru.wikipedia.org/wiki/FIFO - читаем небольшой раздел про реализацию очередей на базе массива

2. читаем man mmap

3. ...

4. PROFIT

pathfinder ★★★★
(17.12.09 20:18:02 MSK)

Ответ на: комментарий от pathfinder 17.12.09 20:18:02 MSK

Забыл указать ещё один недостаток - фиксированный размер файла.

pathfinder ★★★★
(17.12.09 20:21:54 MSK)

Ответ на: комментарий от pathfinder 17.12.09 20:21:54 MSK

Не фиксированный. Очередь можно легко расширять и сокращать, если в конце пусто.

LamerOk ★★★★★
(17.12.09 20:26:18 MSK)

Ответ на: комментарий от LamerOk 17.12.09 20:26:18 MSK

>Не фиксированный. Очередь можно легко расширять и сокращать, если в конце пусто.

Действительно. Об этом я не подумал.

pathfinder ★★★★
(17.12.09 21:01:31 MSK)

Ссылка

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

Думаю что надо по любому. Представим такую ситуацию: файл в файловой системе представляет собой последовательность 5-и блоков по 1024 байта. Надо удалить 1 байт в начале. По любому надо будет двигать все байты во всех пяти блоках.

А вот если надо сдвинуть на размер блока, думаю большинство ФС архитектурно вполне позволят это сделать (первый блок помечаем как свободный, ставим указатель начала на второй блок). Более того, даже если файл занимает 1 байт, там будет (блок - 1) байтов неиспользуемого места. И какая разница, будет этот padding только в конце или в конце и в начале.

Т.е. вопрос вполне разумный и ФС можно сделать так, чтобы эти операции были быстрые. Видимо пока это никому особенно не было нужно.

~~Legioner~~ ★★★★★
(17.12.09 22:58:23 MSK)

Ответ на: комментарий от Legioner 17.12.09 22:58:23 MSK

>А вот если надо сдвинуть на размер блока, думаю большинство ФС архитектурно вполне позволят это сделать

Согласен, но тогда будет зависимость от конкретной реализации ФС, что ИМХО плохо. Да и зачем выносить эту возможность в общий API.

pathfinder ★★★★
(17.12.09 23:43:44 MSK)

Ответ на: комментарий от pathfinder 17.12.09 23:43:44 MSK

Я смотрю так или иначе задача сводится с созданию собственной файловой системы внутри файла, от простенькой до сложной. Что далеко не всегда есть минус. К примеру игры часто хранят свои ресурсы в подобных фнутренних файловых системах, что позволяет в разы увеличить скорость чтения за счёт экономии на операциях с файловыми дескрипторами. Тот же ZIP позволяет инкрементально добавлять файлы в архив любой степени вложености, при этом хранит структуру директории именно в конце файла по той же причине - быстрая операция truncate/append. Лично я ничего плохого в таком велосипедостроении не вижу.

Dendy ★★★★★
(18.12.09 04:54:25 MSK)

Ответ на: комментарий от pathfinder 17.12.09 20:18:02 MSK

> Ты видимо вообще не понял о том, что я говорил. Скорость - это как раз таки главное достоинство этого метода. Тут по барабану удаляем некоторое количество байт из файла размером 10 кб или из файла размером 10 Гб. Если файл будет очень большим, то предложенный вариант с memmove() загнется.

Ну что такое FIFO вроде тоже знаю, использовал дня IPC =) А получится ли применить FIFO к УЖЕ существующему файлу?

exst ★★★★★
(18.12.09 09:42:18 MSK) автор топика

Ответ на: комментарий от exst 18.12.09 09:42:18 MSK

>Ну что такое FIFO вроде тоже знаю, использовал дня IPC =)

IPC??? Ты надеюсь не путаешь с pipe. FIFO - (рус.) первым вошел, первым вышел. Это просто структура данных типа «очередь». Ещё FIFO называют спец. файл (named pipe) для межпроцессного обмена, он создается с помощью mkfifo(). Но это совсем другая вещь, я говорил о FIFO именно как о структуре данных.

А получится ли применить FIFO к УЖЕ существующему файлу?

http://ru.wikipedia.org/wiki/FIFO - читай до состояния просветления. Тогда и получишь ответ на свой вопрос. Похоже на то, что я уже не в силах помочь тебе.

pathfinder ★★★★
(18.12.09 10:29:41 MSK)

Ответ на: комментарий от Dendy 18.12.09 04:54:25 MSK

> позволяет в разы увеличить скорость чтения за счёт экономии на операциях с файловыми дескрипторами.

А чего только в разы? Почему не в десятки, сотни, тысячи раз?

LamerOk ★★★★★
(18.12.09 13:17:47 MSK)

Ответ на: комментарий от LamerOk 18.12.09 13:17:47 MSK

Дело не в дескрипторах, разумеется, и не в проверках прав (это копейки), дело в фрагментации: много мелких файлов почти наверняка окажутся в разных углах НЖМД. К тому-же игроделы заботятся о виндузятниках, не имеющих reiserfs и страшно боящихся больших количеств мелких файлов.

legolegs ★★★★★
(18.12.09 13:32:22 MSK)

Ответ на: комментарий от legolegs 18.12.09 13:32:22 MSK

> Дело в фрагментации: много мелких файлов почти наверняка окажутся в разных углах НЖМД.

Будучи записаны последовательно друг за другом на диск, с фрагменатцией в 2-3%, как большинство ntfs/etx{2,3} партиций?

К тому-же игроделы заботятся о виндузятниках,... страшно боящихся больших количеств мелких файлов.

Городская легенда.

LamerOk ★★★★★
(18.12.09 13:39:08 MSK)

Ответ на: комментарий от pathfinder 18.12.09 10:29:41 MSK

> http://ru.wikipedia.org/wiki/FIFO - читай до состояния просветления. Тогда и получишь ответ на свой вопрос. Похоже на то, что я уже не в силах помочь тебе.

Хорошо. Походу придется перейти на практику. Как это реализовать? Ну скажем на Си.

exst ★★★★★
(18.12.09 14:57:53 MSK) автор топика

Ссылка

Ответ на: комментарий от LamerOk 18.12.09 13:39:08 MSK

За что купил, за то и продаю. Сам бенчмарков не делал. Но игроделов миллион и все пакуют ресурсы, это о чём-то говорит.

legolegs ★★★★★
(19.12.09 08:43:51 MSK)

Ответ на: комментарий от legolegs 19.12.09 08:43:51 MSK

один знакомый уровня технического директора из околоигровой сферы отзывался примерно в том духе, что увязнуть в написании своей ФС — это жопа.

dilmah ★★★★★
(19.12.09 12:17:13 MSK)

Ответ на: комментарий от pathfinder 17.12.09 16:38:13 MSK

[Head|Tail]... Да вы, батенька, прологом увлеклись... :)

Insomnium ★★★★
(19.12.09 12:24:22 MSK)

Ссылка

Ответ на: комментарий от dilmah 19.12.09 12:17:13 MSK

Каждый второй школьник уже написал модуль для fuse, а техдиректор боится? Он такой один, несомненно. Там же не настоящая фс нужна, а что-то типа tar, даже проще.

legolegs ★★★★★
(19.12.09 13:09:05 MSK)

Ответ на: комментарий от legolegs 19.12.09 13:09:05 MSK

> Он такой один, несомненно. Там же не настоящая фс нужна, а что-то типа tar, даже проще.

ну он из сферы защиты игр от копирования, ему с шифрованием еще нужно было:)

dilmah ★★★★★
(19.12.09 13:24:09 MSK)

Ссылка

Ответ на: комментарий от legolegs 19.12.09 08:43:51 MSK

> это о чём-то говорит.

Это говорит о том, что ресурсы игры - ридонли. ;)

LamerOk ★★★★★
(19.12.09 13:49:54 MSK)

Ссылка

Похожие темы