История изменений

Исправление bvn13, 11.05.26 23:28 (текущая версия) :

ClaudeAI:

Хороший вопрос — это одна из тех тем, где дьявол в деталях. Realtime GC для Java — задача решаемая (есть же Azul Zing, IBM Metronome, JamaicaVM), но проблемы там фундаментальные.

Главная проблема — определение «realtime»

Нужно разделять:

Soft realtime — паузы предсказуемо короткие (единицы мс), редкие выбросы допустимы. Сюда метят ZGC и Shenandoah.
Hard realtime — гарантированный worst-case bound на любую операцию выделения памяти. Пропуск дедлайна = провал системы. Вот тут начинается ад.

ZGC даёт паузы <1ms на практике, но это не hard realtime — это статистика, а не гарантия.

Технические сложности

Барьеры на чтение/запись. Чтобы делать GC конкурентно с мутатором, нужны read/write barriers — каждый доступ к ссылке проходит через дополнительный код. Это накладные расходы на каждое чтение поля объекта. ZGC использует load barriers + coloured pointers, Shenandoah — Brooks forwarding pointers. Реализовать барьеры так, чтобы они сами имели bounded worst-case time, нетривиально.

Аллокация должна быть bounded. new Object() в обычной JVM может триггернуть GC, расширение heap, syscall к ОС. Для hard realtime каждая аллокация должна укладываться в известный верхний предел. Решения: pre-allocated pools, region-based allocation, scoped memory (как в RTSJ — Real-Time Specification for Java).

Фрагментация. Если не компактить heap — фрагментация убьёт предсказуемость через час работы. Если компактить — нужно перемещать живые объекты конкурентно, обновлять все ссылки, и это тоже должно быть bounded. Metronome решает это incremental defragmentation с work-based scheduling.

Root scanning. Стеки всех потоков, JNI-ссылки, статические поля — всё это roots. Stop-the-world сканирование stacks даже на ZGC занимает время, пропорциональное количеству потоков. Полностью конкурентный root scan технически сложен.

JIT и deoptimization. HotSpot может деоптимизировать скомпилированный код в произвольный момент — это пауза, никак не связанная с GC, но ломающая realtime-гарантии. Нужен либо AOT (как у Azul Falcon или GraalVM Native Image), либо tiered компиляция с предсказуемыми переходами.

ОС и hardware. Page faults, TLB shootdowns, NUMA-эффекты, прерывания ядра, throttling CPU — всё это вносит jitter, который GC не контролирует. Для hard realtime нужен RTOS или PREEMPT_RT Linux с изоляцией ядер (isolcpus, nohz_full), pinning потоков, locked memory pages.

Финализаторы, weak references, class unloading. Каждая из этих штук — потенциальный источник непредсказуемых пауз. RTSJ их либо запрещает, либо строго ограничивает.

Почему это редко делают с нуля

Написать сам алгоритм GC — задача на полгода-год для опытного человека. Но GC в JVM — это не отдельный модуль, а глубокая интеграция с:

интерпретатором (safepoints, OOP map)
JIT (запись барьеров в скомпилированный код, deopt points)
runtime’ом (object layout, card tables, remembered sets)
threading (safepoint polling, parking)

В OpenJDK GC реализуется через HotSpot GC interface — это десятки тысяч строк кода-обвязки. Поэтому в реальности realtime-GC делают:

На базе существующей JVM с глубокими патчами (Azul, IBM J9 Metronome)
В специализированной JVM (JamaicaVM от Aicas — full hard realtime, сертифицирован для авиации)
Через RTSJ (JSR 1, JSR 282) — обход GC через ImmortalMemory/ScopedMemory

Что почитать

David F. Bacon, «The Metronome: A Simpler Approach to Garbage Collection in Real-Time Systems» — классика, понятно объясняет work-based vs time-based scheduling
Jones, Hosking, Moss, «The Garbage Collection Handbook» — глава про realtime GC
RTSJ spec (JSR 282) — модель памяти для realtime Java
Исходники ZGC и Shenandoah в OpenJDK — современный low-pause, не hard realtime, но многие идеи применимы

Исходная версия bvn13, 11.05.26 23:28:

ClaudeAI:

Хороший вопрос — это одна из тех тем, где дьявол в деталях. Realtime GC для Java — задача решаемая (есть же Azul Zing, IBM Metronome, JamaicaVM), но проблемы там фундаментальные. Главная проблема — определение «realtime» Нужно разделять:

Soft realtime — паузы предсказуемо короткие (единицы мс), редкие выбросы допустимы. Сюда метят ZGC и Shenandoah. Hard realtime — гарантированный worst-case bound на любую операцию выделения памяти. Пропуск дедлайна = провал системы. Вот тут начинается ад.

ZGC даёт паузы <1ms на практике, но это не hard realtime — это статистика, а не гарантия. Технические сложности Барьеры на чтение/запись. Чтобы делать GC конкурентно с мутатором, нужны read/write barriers — каждый доступ к ссылке проходит через дополнительный код. Это накладные расходы на каждое чтение поля объекта. ZGC использует load barriers + coloured pointers, Shenandoah — Brooks forwarding pointers. Реализовать барьеры так, чтобы они сами имели bounded worst-case time, нетривиально. Аллокация должна быть bounded. new Object() в обычной JVM может триггернуть GC, расширение heap, syscall к ОС. Для hard realtime каждая аллокация должна укладываться в известный верхний предел. Решения: pre-allocated pools, region-based allocation, scoped memory (как в RTSJ — Real-Time Specification for Java). Фрагментация. Если не компактить heap — фрагментация убьёт предсказуемость через час работы. Если компактить — нужно перемещать живые объекты конкурентно, обновлять все ссылки, и это тоже должно быть bounded. Metronome решает это incremental defragmentation с work-based scheduling. Root scanning. Стеки всех потоков, JNI-ссылки, статические поля — всё это roots. Stop-the-world сканирование stacks даже на ZGC занимает время, пропорциональное количеству потоков. Полностью конкурентный root scan технически сложен. JIT и deoptimization. HotSpot может деоптимизировать скомпилированный код в произвольный момент — это пауза, никак не связанная с GC, но ломающая realtime-гарантии. Нужен либо AOT (как у Azul Falcon или GraalVM Native Image), либо tiered компиляция с предсказуемыми переходами. ОС и hardware. Page faults, TLB shootdowns, NUMA-эффекты, прерывания ядра, throttling CPU — всё это вносит jitter, который GC не контролирует. Для hard realtime нужен RTOS или PREEMPT_RT Linux с изоляцией ядер (isolcpus, nohz_full), pinning потоков, locked memory pages. Финализаторы, weak references, class unloading. Каждая из этих штук — потенциальный источник непредсказуемых пауз. RTSJ их либо запрещает, либо строго ограничивает. Почему это редко делают с нуля Написать сам алгоритм GC — задача на полгода-год для опытного человека. Но GC в JVM — это не отдельный модуль, а глубокая интеграция с:

интерпретатором (safepoints, OOP map) JIT (запись барьеров в скомпилированный код, deopt points) runtime’ом (object layout, card tables, remembered sets) threading (safepoint polling, parking)

На базе существующей JVM с глубокими патчами (Azul, IBM J9 Metronome) В специализированной JVM (JamaicaVM от Aicas — full hard realtime, сертифицирован для авиации) Через RTSJ (JSR 1, JSR 282) — обход GC через ImmortalMemory/ScopedMemory

Что почитать

David F. Bacon, «The Metronome: A Simpler Approach to Garbage Collection in Real-Time Systems» — классика, понятно объясняет work-based vs time-based scheduling Jones, Hosking, Moss, «The Garbage Collection Handbook» — глава про realtime GC RTSJ spec (JSR 282) — модель памяти для realtime Java Исходники ZGC и Shenandoah в OpenJDK — современный low-pause, не hard realtime, но многие идеи применимы