Kaitai Struct 0.6

fosdem, kaitai struct, reverse engineering, форматы данных

5

3

Вышла новая версия Kaitai Struct — языка спецификации произвольных бинарных форматов файлов, пакетов, протоколов и т. д.

Основная идея проекта в том, что формат бинарного файла описывается один раз на языке .ksy, после чего файлы такого формата можно рассматривать в визуализаторах, получая представление о том, каким байтам соответствуют какие значения элементов формата, сгенерировать человекочитаемую диаграмму формата, а самое главное — сгенерировать готовую библиотеку парсинга такого формата на одном из 8 поддерживаемых целевых языков: C++, C#, Java, JavaScript, Perl, PHP, Python, Ruby.

В новой версии стоит отметить следующие улучшения:

поддержка побитового чтения (в том числе для парсинга битовых полей, битовых потоков и т.д.) - type: bXX теперь позволит прочитать XX бит как число, type: b1 прочитает один бит и представит его как boolean
масса возможностей добавить метаинформацию о формате в .ksy: ключ doc на уровне типов, а также ключи title, license, ks-version в meta
поддержка нестандартных ключей а ля CSS, с минусом в начале; активно используется в Web IDE для задания опций отображения (-webide-representation) и т. д.
массивные изменения движка вывода типов: enum теперь тоже ресолвится по единым правилам, даже в языках, где таковой поддержки нет нативно (Python, PHP, Perl, JavaScript и т. д.)
идентификатор id для атрибутов последовательности теперь опционален; если его не задать, будет автоматически присвоен уникальный числовой идентификатор, что удобно для быстрого разбора неизвестных полей в форматах
поддержка подключения внешних типов (если задать type: foo и foo не определен в текущем файле, будет сгенерирован корректный import / include в предположении, что тип объявлен во внешнем файле)
возможность писать целочисленные литералы с разделителями (123_456_789 или 0b0101_1111), а также преобразовывать числа в строки с помощью метода to_s
исправление ошибок, оптимизация генерируемого кода

Релиз приурочен к проходящей в эти выходные конференции FOSDEM 2017. 5 февраля будет представлен доклад о парсинге бинарных media-форматов с помощью Kaitai Struct в рамках Open Media devroom. Для интересующихся, но не имеющих возможности посетить доклад лично, организована онлайн-трансляция видео.

>>> Подробности

Ссылка

← fish 2.5.0

DoubleContact 0.1 →

← 1 2 3 →

Ответ на: комментарий от Linfan 06.02.17 00:00:26 MSK

SWord

Забавно, кстати, я про этот проект не знал, спасибо! Чем-то по идеологии очень похоже на OLEToy - вы с ними не сотрудничали?

GreyCat ★★
(06.02.17 00:10:46 MSK) автор топика

Ответ на: комментарий от GreyCat 06.02.17 00:07:33 MSK

Вот это уже сложно, хотя бы потому, что далеко не во всех языках их можно оставить такими.

Ну это дело такое. В нашем случае это всего лишь имена, по которым резолвятся объекты модели в окне вьювера дерева модели.

~~Linfan~~ ★★★★★
(06.02.17 00:11:58 MSK)

Ссылка

Ответ на: комментарий от GreyCat 06.02.17 00:10:46 MSK

OLEToy вырос из нашего CDR Explorer (https://sk1project.net/modules.php?name=Products&product=cdrexplorer), который был классическим дампером. SWord - это следующая генерация, позволяющая разрабатывать in-place код.

~~Linfan~~ ★★★★★
(06.02.17 00:14:17 MSK)
Последнее исправление: Linfan 06.02.17 00:14:58 MSK (всего исправлений: 1)

Ответ на: комментарий от Linfan 06.02.17 00:08:03 MSK

Как я уже указывал выше, для отладки мы используем отдельное приложение

Насколько я понимаю, у вас чуть проще задача: по сути вся логика у вас строго только на Python, а где не хватает скорости - вы добавляете нативные модули на C, но опять же в основном используемые из Python?

GreyCat ★★
(06.02.17 00:24:23 MSK) автор топика

Ответ на: комментарий от GreyCat 06.02.17 00:24:23 MSK

Да. И более того, SWord создан для разработки только UniConvertor, поскольку он визуализирует модели форматов UniConvertor'а.

~~Linfan~~ ★★★★★
(06.02.17 00:35:03 MSK)

Ответ на: комментарий от vtq34957 06.02.17 00:03:47 MSK

дытэктор мышкоюзера зашкалил

Не каждому суждено делать визуальный анализ в консоли :)

~~Linfan~~ ★★★★★
(06.02.17 00:49:45 MSK)

Ссылка

Ответ на: комментарий от Linfan 06.02.17 00:35:03 MSK

Нет, кстати, желания что-то вместе поделать - например, какие-то ваши форматы попытаться в .ksy описать так, чтобы можно было их сразу во всяких разных языках дергать?

Или попробовать в SWord добавить поддержку большего числа поддерживаемых форматов (например, бинарники просматривать?) через внешние .ksy?

Или что-то еще? Например, я могу поковырять какие-нибудь еще недоделанные форматы, чтобы их потом добавить в sK1 / UniConvertor?

GreyCat ★★
(06.02.17 00:56:16 MSK) автор топика

Ответ на: комментарий от GreyCat 06.02.17 00:56:16 MSK

Миша, да можно попытаться. Особенно в реализации ksy описаний. Кстати, Inquisitor это же твой проект?

~~Linfan~~ ★★★★★
(06.02.17 01:01:11 MSK)
Последнее исправление: Linfan 06.02.17 01:06:15 MSK (всего исправлений: 1)

Ответ на: комментарий от GreyCat 06.02.17 00:56:16 MSK

какие-то ваши форматы попытаться в .ksy описать так, чтобы можно было их сразу во всяких разных языках дергать?

Правда основная сложность не в разборе формата на чанки, а дальнейшая его трансляция внутри аппликухи. Многие девелоперы страсть как не любят это занятие.

~~Linfan~~ ★★★★★
(06.02.17 01:09:00 MSK)

Ссылка

Интересная вещь, с одной стороны, казалось бы полная ерунда, такие вещи пишет каждый второй студент, с другой, с детства мечтал о таком процессе: скармливаешь компьютеру команды процессора (с размерами, таймингами), остальное железо, формат файла (скажем JPEG или видеокодек), второй формат файла (PNG или банально буфер на экране), а он уже сам рассчитывает оптимальный по памяти/скорости/кэшам алгоритм, и вот так за пол часа делается что угодно, от видеоплеера и браузера, до 3D RPG.

anonymous
(06.02.17 01:09:09 MSK)

Ссылка

Ответ на: комментарий от Linfan 06.02.17 01:01:11 MSK

Ага - хотя я сейчас им уже несколько другие люди занимаются, а почти за последние n лет ничего толком туда не контрибьючу. Ну и, собственно, я наши похождения во время и после LTDL 2009 прекрасно помню :)

GreyCat ★★
(06.02.17 01:09:49 MSK) автор топика

Ответ на: комментарий от GreyCat 06.02.17 01:09:49 MSK

Та отож :) Как из прошлой жизни.

~~Linfan~~ ★★★★★
(06.02.17 01:12:11 MSK)

Расскажите немного о вот таком workflow, возможно ли анализировать формат сверху вниз, то есть например у меня есть сетевой пакет, я не знаю тип и размер полей, но знаю что следующий известный блок начинается с magic number. То есть, динамический размер чанка.

anonymous
(06.02.17 01:12:33 MSK)

Ответ на: комментарий от anonymous 06.02.17 01:12:33 MSK

возможно ли анализировать формат сверху вниз

Обычно так и происходит. Собственно, все и заточено ровно под то, что сначала об очередном блоке ничего не известно, кроме, например, размера, а затем он обрастает типом, какими-то полями и т.д.

но знаю что следующий известный блок начинается с magic number

Вот конкретно так сложно на самом деле - KS не умеет обычно делать то, что делают «обычные» парсеры на основе всяких LR/LL/SLR и т.п. грамматик - т.е. «искать» какие-то образцы, бэктрекаться и т.д. Обычно бинарные форматы все равно устроены не так - они почти никогда не оперируют такими высокими материями - там все равно внутри размеры, смещения и т.д.

Зачастую, когда формат неизвестен, можно визуально найти в дампе то, что нужно и начинать с очень простой структуры типа

- size: 165
- size: 180
- size: 2073

а затем каждое из этих полей может начинать обрастать подтипом, какими-то процессингами и т.д.

GreyCat ★★
(06.02.17 01:41:07 MSK) автор топика

Ответ на: комментарий от Linfan 06.02.17 01:12:11 MSK

Типа того :) Есть какие-то мысли, с чего бы такого можно было начать?

GreyCat ★★
(06.02.17 01:50:40 MSK) автор топика

Ссылка

Ответ на: комментарий от Linfan 06.02.17 00:14:17 MSK

OLEToy вырос из нашего

Не надо грязи.

anonymous
(06.02.17 04:20:04 MSK)

А бывают языки спецификации, на котором можно описать синтаксис C, C++, D, Java, PHP, Perl...

И потом на основании этого написать компилятор, который только на основании спецификации программу на этом языке скомпилирует.

Есть ли языки синтаксис, которых уже описан на таком языке спецификации?

unDEFER ★★★★★
(06.02.17 12:50:17 MSK)

Ответ на: комментарий от anonymous 06.02.17 04:20:04 MSK

OLEToy вырос из нашего

Не надо грязи.

У вас есть другие данные?

~~Linfan~~ ★★★★★
(06.02.17 12:53:18 MSK)

Ответ на: комментарий от unDEFER 06.02.17 12:50:17 MSK

Haxe внезапно человечество уже придумало.

anonymous
(06.02.17 13:51:01 MSK)

Ссылка

Ответ на: комментарий от unDEFER 06.02.17 12:50:17 MSK

Бэкуса-Наура форма + yacc/Gnu bison?

gejzenbug
(06.02.17 14:18:32 MSK)

Ответ на: комментарий от unDEFER 06.02.17 12:50:17 MSK

Можно, но зачем?

Такая штука сможет генерить примитивные числодробилки, но как только потребуется минимальное использование каких либо ресурсов системы (память, ввод-вывод и т.п.) возникнет проблема несовместимости рантаймов. Тогда потребуется некоторый метарантайм, дающий определённые гарантии, причём реализация потребуется для каждого отдельного целевого языка. Метарантайм будет некоторой прослойкой над стандартным рантаймом языка. Более того то что будет получаться на выходе после всего этого будет иметь мало общего с кодом написанным вручную.

Например в случае трёх целевых языков Си, Си++ и Java какую схему управления памятью будет подразумевать наш метаязык? Можно ручную, можно подсчёт ссылок, можно mark and sweep сборщик. В результате получим Си код который не работает без Boehm GC или Java с финализаторами по всему коду. Более того очевидно всё это ещё и будет работать по-разному и узкие места могут возникать в совершенно различных местах.

anonymous
(06.02.17 14:29:09 MSK)

Ответ на: комментарий от gejzenbug 06.02.17 14:18:32 MSK

Тут речь всё же не о создании компилятора, а о том чтобы на основании программы описанной некоторым языком порождать эквивалентную по функциональнсти программу на целевом языке. Это то что делает Haxe.

anonymous
(06.02.17 14:34:54 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.02.17 14:29:09 MSK

Ну вот хотелось бы, такой «метакомпилятор», чтобы он знал, что бывает и malloc/free как на C и GC на D или Java, и чтобы всё умел..

А потом все эти спецификации языков можно будет как угодно скрещивать :-)

unDEFER ★★★★★
(06.02.17 15:09:19 MSK)
Последнее исправление: unDEFER 06.02.17 15:11:37 MSK (всего исправлений: 1)

Ответ на: комментарий от unDEFER 06.02.17 15:09:19 MSK

В какой-то степени язык выражений в kaitai как раз и есть такой метаязык.

anonymous
(06.02.17 15:20:25 MSK)

Ответ на: комментарий от anonymous 06.02.17 15:20:25 MSK

Да, авторы его собственно и декларируют как DSL. Проект интересный, однако на мой взгляд использование YAML в качестве основы не самый удачный вариант, хотя, когда по работе мне потребовалось сделать нечто подобное сам его использовал, но для pet project'a я бы всё-таки построил грамматику и парсер под задачу вручную, уж больно тяжеловесен спек YAML. На самом деле исопльзуя scala можно было построить такую грамматику, которая являлась бы строгим подмножеством грамматики scala, тогда и парсер писать не надо.

Однако, по большому счёту, проект может спокойно набрать пользовательскую базу, а после этого в зависимости от наличия внятных сценариев использования того факта что валидный ksy это валидный yml, спокойно трансформировать язык как угодно, просто сделав генератор из старого формата в новый, что для декларативных языков не является особой проблемой.

anonymous
(06.02.17 15:49:34 MSK)

поддержка побитового чтения

Вот теперь нужно

anonymous
(06.02.17 16:03:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.02.17 15:49:34 MSK

Вообще б да, им бы какой-нибудь синтаксис типа Spicy иметь - цены б не было.

anonymous
(06.02.17 16:29:01 MSK)

Ссылка

Можно ли чтение юзертипов описывать в том же ksy чтобы не зависеть от

будет сгенерирован корректный import / include в предположении, что тип объявлен во внешнем файле)

Например, ue(v) и se(v) при реализации https://i.stack.imgur.com/2vi21.png обозначают https://en.wikipedia.org/wiki/Exponential-Golomb_coding и тут выбор между читаемостью и внешними зависимостями

anonymous
(06.02.17 16:31:07 MSK)

Ссылка

Ответ на: комментарий от GreyCat 06.02.17 01:41:07 MSK

Вот меня и интересует предлагаемый рабочий процесс, если к примеру у меня есть три пакета header-unknownpart-knownpart-checksum, в которых unknownpart имеет разный размер. Предположим, что я пока не обнаружил признак, по которому можно однозначно их различить (а может, я и не хочу их различать, а тупо пересылать дальше, меняя только known+checksum). Предлагается заводить по одному ksy файлу на каждый пакет?

anonymous
(06.02.17 17:13:00 MSK)

Ответ на: комментарий от anonymous 06.02.17 17:13:00 MSK

Зачем? Заводишь сколько надо типов в одном файле и все.

anonymous
(06.02.17 17:30:37 MSK)

Ответ на: комментарий от anonymous 06.02.17 17:30:37 MSK

Например, 9999? =)

anonymous
(06.02.17 17:38:56 MSK)

Ответ на: комментарий от anonymous 06.02.17 17:38:56 MSK

Хоть 10000. Разрешаю.

anonymous
(06.02.17 19:47:42 MSK)

Ссылка

Пример использования:

https://habrahabr.ru/post/281595/

router ★★★★★
(06.02.17 19:59:42 MSK)

Ответ на: комментарий от router 06.02.17 19:59:42 MSK

Ты б еще древнее статью откопал :) там сейчас все в разы проще делается.

anonymous
(06.02.17 20:12:30 MSK)

Ответ на: комментарий от anonymous 06.02.17 20:12:30 MSK

Приводи новый

ИМХО, когда рассказывают о новом софте, объяснить на пальцах что это, где может пригодится и как использовать - бесценно ;)

router ★★★★★
(06.02.17 20:15:04 MSK)

Ответ на: комментарий от anonymous 06.02.17 15:49:34 MSK

которая являлась бы строгим подмножеством грамматики scala, тогда и парсер писать не надо.

Написание парсера в современном мире - задача на полчаса-час. Тем более, что в ksc уже и так парсер языка выражений есть. А использовать парсер Scala - это тут, мягко говоря, из пушки по воробьям. Scala и так не славится тем, чтобы это был особенно приятный (и быстрый) для парсинга язык.

спокойно трансформировать язык как угодно, просто сделав генератор из старого формата в новый

Типа того. Предлагайте варианты.

GreyCat ★★
(06.02.17 20:58:18 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.02.17 17:13:00 MSK

Предлагается заводить по одному ksy файлу на каждый пакет?

Можно завести по типу на каждый пакет в одном и том же файле. Какие варианты-то? Вам надо по любому их как-то отличать и указывать для каждого вручную посчитанную длину или что-то такое. Сделайте что-то типа:

types:
  pkt1:
    seq:
      - id: header
        type: header
      - id: unknownpart
        size: 100500
      - id: knownpart
        type: knownpart
      - id: checksum
        type: u4
  pkt2:
    seq:
      - id: header
        type: header
      - id: unknownpart
        size: 1337
      - id: knownpart
        type: knownpart
      - id: checksum
        type: u4
# и т.д.

Дублирования на самом деле минимум, т.к. как раз сложные вещи - типы header и knownpart - описываются один раз.

GreyCat ★★
(06.02.17 21:03:08 MSK) автор топика

Ссылка

Ответ на: комментарий от router 06.02.17 20:15:04 MSK

Да вроде бы статья Накамуры не то, чтобы сильно устарела. Он же там в первой статье какие-то совсем банально-примитивные вещи показывает. Ну, «unknown» нынче можно вручную не писать, а так вроде бы все актуально. И консольным визуализатором можно новичков не пугать, а показывать сразу Web IDE.

GreyCat ★★
(06.02.17 21:06:13 MSK) автор топика

Ссылка

Ответ на: комментарий от Linfan 06.02.17 12:53:18 MSK

У вас есть другие данные?

https://github.com/renyxa/re-lab/blob/master/oletoy/README

anonymous
(06.02.17 21:38:46 MSK)

А не замахивался ли кто-то из KSY-сообщества на то, чтобы описать на нём двоичные форматы MS Office (те, что до появления OOXML)? Вот это была бы задача для истинного джедая (Спольски подтверждает).

hobbit ★★★★★
(06.02.17 22:02:17 MSK)

Ответ на: комментарий от anonymous 06.02.17 21:38:46 MSK

Мсье, «вырос» не эквивалент «сделан из». OLEToy слеплен по образу и подобию CDR Explorer, с повторением архитектурных ошибок (ну или паттернов, кому как нравится). Собсно в докладе на LGM2012 Strba об этом и говорил. И ничего зазорного в этом нет - это опенсурс, мсье. Для того код и открыт, чтобы им пользовались.

~~Linfan~~ ★★★★★
(06.02.17 22:14:27 MSK)

Ответ на: комментарий от hobbit 06.02.17 22:02:17 MSK

Парсер CFB (он же OLE, который в основе всех этих форматов) у нас в целом есть. Описывать MS Office на самом деле не то, чтобы дико сложно, но весьма муторно - когда только официальная спецификация на 800-с-чем-то-там страниц.

GreyCat ★★
(06.02.17 23:41:27 MSK) автор топика

Ссылка

Ответ на: комментарий от GreyCat 06.02.17 00:09:28 MSK

Ога. А потом огребают проблемы с endianness, byte alignment, #pragma pack, сегфолты и непонятно откуда-то взявшиеся тормоза при обращении к структуре.

Руки надо просто выпрямлять. Или выбрать язык попроще. Благо, в наше время есть из чего.

segfault ★★★★★
(07.02.17 00:33:25 MSK)

Ответ на: комментарий от vtq34957 06.02.17 00:09:28 MSK

все врерно,на 1 курсе института так и делают,а что дальше?
они начинают писать на джаваскрипте?

Ну кто на жс, кто на джаве, кто на плюсах... А тем некоторым, кто проникся, уже ничего не страшно.

segfault ★★★★★
(07.02.17 00:35:28 MSK)

Ссылка

но не имеющих возможности посетить доклад лично, организована онлайн-трансляция видео.

А трансляция записывалась?

theNamelessOne ★★★★★
(07.02.17 02:36:08 MSK)

Ответ на: комментарий от Linfan 06.02.17 22:14:27 MSK

Собсно в докладе на LGM2012 Strba об этом и говорил.

Пруфцы будут или пёрнул в лужу и рад?

anonymous
(07.02.17 04:10:14 MSK)

А писалку бинарного формата потом сложно запилить?

MATPOCKUH ★
(07.02.17 07:25:36 MSK)

Ответ на: комментарий от theNamelessOne 07.02.17 02:36:08 MSK

А трансляция записывалась?

Да. И даже видео уже готовы и выложены: https://fosdem.org/2017/schedule/event/om_kaitai/

GreyCat ★★
(07.02.17 11:08:32 MSK) автор топика

Ответ на: комментарий от MATPOCKUH 07.02.17 07:25:36 MSK

А писалку бинарного формата потом сложно запилить?

Зависит от формата. Простую писалку я, надеюсь, мы таки скоро сделаем by popular demand. Более сложно сделать писалку, которая, скажем, по такому описанию:

seq:
  - id: len
    type: u4
  - id: str
    type: str
    size: len + 2
    # ...

умеет понимать, что поле len - зависимое от поля str, и когда в поле str будут класть, скажем, строчку «abcde», в поле len надо автоматом выставить длину строки минус 2, т.е. 3.

GreyCat ★★
(07.02.17 11:10:53 MSK) автор топика
Последнее исправление: GreyCat 07.02.17 11:11:05 MSK (всего исправлений: 1)

Ответ на: комментарий от GreyCat 07.02.17 11:10:53 MSK

Имелось в виду, могу ли я сгенерить для какого-то формата читалку на Питоне, а потом воспользоваться доступными структурами данных из читалки, чтобы самостоятельно реализовать писалку.

MATPOCKUH ★
(07.02.17 11:45:36 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← fish 2.5.0

Open Source

DoubleContact 0.1 →

Похожие темы