Учебная задача: оптимизировать работу с очередью

0

5

Учебная задача. Симулятор обработки сетевых пакетов. Дан буфер размера size и набор Npac пар чисел Ti-Di. В моменты Ti приходят пакеты, на обработку которых нужно Di времени. Di может быть 0. Несколько Ti подряд могут совпадать, но они гарантированно не убывают. Пришедший пакет добавляется в хвост буфера. Обрабатывается только пакет в голове, на 0-м месте, остальные ждут. Если подряд идут несколько пакетов длительностью 0, они обрабатываются в одном такте, в том же, когда первый из них дошёл до головы, и этот же такт засчитывается и в обработку следующего за ними ненулевого пакета. Когда буфер заполнен, приходящие пакеты сбрасываются.

Требуется выдать массив времён, когда началась обработка каждого пакета. Или «-1», если пакет был сброшен.

Я сделал предельно просто — счётчик тактов времени, на каждом такте пробегается вначале очередь, всем ждущим снижается время ожидания, если что-то доходит до головы — обрабатывается, затем пробегается массив пакетов от первого необработанного до первого со временем прибытия Ti больше текущего. Работает правильно, но долго.

Попробовал ускорить, двигать время не по 1 такту, а определять дельты до прихода ближайшего пакета или окончания обработки головы очереди, что раньше. Выигрыш получился несущественный. Оптимизации с заменой list на collections.deque и хранением длин массивов в отдельных переменных дали прирост 10-20%

Почитал советы — говорят, надо избавиться от цикла со счётчиком времени и работать с событиями. Какая принципиальная разница с дельтами? Попробовал, запутался в алгоритме, постоянно что-то теряется. Получилось гораздо быстрее, но возможно, потому, что неправильно.

Вариант с дельтами:

import time, sys, collections
ar = list(map(int, sys.stdin.read().split()))
size, npac = ar[0:2]
packets = [ar[lcv*2+2:lcv*2+4] for lcv in range(npac)]
packets = [{'arrival':arrival, 'duration':duration, 'start':-1, 'time':duration} for arrival, duration in packets]
maxtime = 1 + sum(p['arrival'] + p['duration'] for p in packets)
queue = collections.deque()
curp = 0 # номер первого необработанного пакета
t = 0
nextarrival = 0
nextqueue = 0
delta = 1

while t < maxtime:
    # обработать очередь
    if queue:
        queue[0]['time'] -= 1
        if queue[0]['time'] <= 0:
            queue.popleft()
            while queue and queue[0]['time'] <= 0:
                queue[0]['start'] = t
                queue.popleft()
            if queue:
                queue[0]['start'] = t
                nextqueue = queue[0]['time']
    # проверить прибытие пакетов
    for i in range(curp, npac):
        p = packets[i]
        if t < p['arrival']:
            nextarrival = p['arrival']
            break
        curp = i+1
        if t == p['arrival']:
            if not queue:
                    p['start'] = t
                    if p['duration'] > 0:
                        queue.append(p)
            elif len(queue) < size:
                    queue.append(p)
            else:
                p['start'] = -1
    # выход, всё закончилось
    if len(queue) < 2 and curp >= npac:
        break
    # время следующего события
    tlast = t
    t = max(min(nextarrival, nextqueue), t+1)
    delta = t - tlast

for p in packets:
    print(p['start'])

Что и как здесь можно ускорить?

Или как делать иначе? Цикл по массиву пакетов, где в ожидании очередного прибытия прокручивается очередь, у меня получился слишком запутанным. Другие варианты есть?

Ответ: Свёл к следующему:

import sys, collections
ar = list(map(int, sys.stdin.read().split()))
size, npac = ar[0:2]
packets = [ar[lcv*2+2:lcv*2+4] for lcv in range(npac)]
queue = collections.deque()
log = [-1 for _ in range(npac)]
t0 = 0 # tc = 0
for pn in range(npac):
    cparrival, cpduration = packets[pn]
    # tc <= cparrival
    while len(queue) > 0 and t0 + queue[0][0] <= cparrival :
        d0, pn0 = queue.popleft()
        t0 = t0 + d0 #tc
        if queue: 
            log[queue[0][1]] = t0
            #t0 = tc
    #tc = cparrival
    if len(queue) < size:
        queue.append([cpduration, pn])
        if len(queue) == 1:
            log[pn] = cparrival
            t0 = cparrival
#tc = t0
while queue:
    d0, pn0 = queue.popleft()
print(log)

Вычислительная часть работает вдвое быстрее.

←	Прокинуть физическое устройство в эмулятор

Где познать микроджаву(она же J2ME) в 2025?

→

на каждом такте пробегается вначале очередь, всем ждущим снижается время ожидания,

О_о. Зачем? !!

У тебя Ti неубывает.

Пакеты упорядочены в порядке их обработки.

Обрабатывай голову и все последующие до первого ненулевого времени (с учетом времени обработки). Время храни и увеличивая.

soomrack ★★★★★
(05.08.25 20:42:04 MSK)

Ответ на: комментарий от soomrack 05.08.25 20:42:04 MSK

Зачем? !!

Не до конца понял условие задачи, поэтому там много дублировалось. Большую часть уже удалил.

Время храни и увеличивая.

Какое время?

question4 ★★★★★
(05.08.25 20:48:25 MSK) автор топика

Ответ на: комментарий от question4 05.08.25 20:48:25 MSK

Псевдокод, который демонстрирует основную мысль (но в который много чего надо добавить, чтобы задачу правильно решал).

current_time = 0;

for(packet in queue) {
    if(current_time < packet_time) {
        current_time = packet.Ti;
    }
    packet.start_time = current_time;
    current_time += packet.Di;
}

for(packet in queue) {
    print(packet.start_time);
}

soomrack ★★★★★
(05.08.25 20:55:20 MSK)
Последнее исправление: soomrack 05.08.25 21:05:15 MSK (всего исправлений: 1)

Если питон, то попробуй SimPy.

А вообще, это отдельная большая область. Приведу разные названия, но они обо одном и том же: «дискретно-событийное моделирование», «системы массового обслуживания», «сети очередей».

Странно. Я давно наблюдаю за твоими постами. Думал, что ты все знаешь, а тут пытаешься переизобрести колесо

Вообще, у меня есть и свои собственные инструменты на эту тему. Только я пока не совсем понял, правильно ли я понял твою задачу. Слишком краткое описание, а на длинное я не готов. По крайней мере, не сейчас вечером

anonymous
(05.08.25 20:56:31 MSK)

Ответ на: комментарий от question4 05.08.25 20:48:25 MSK

Какое время?

Текущее эмулируемое

Смотришь два события:

очередной пакет пришёл
очередной пакет из очереди обработан

смотришь, что раньше наступит

пришёл пакет

очередь полностью забита? отбрасываешь

если нет, добавляешь в очередь

если очередь была пустая, текущее время заменяешь на время прибытия пакета

пакет обработан

увеличиваешь текущее время на время обработки этого пакета

удаляешь его из очереди

да, если обработчик сразу забирает пакет из очереди (ещё в процессе обработки), можно считать как очередь длины N+1

router ★★★★★
(05.08.25 21:30:29 MSK)
Последнее исправление: router 05.08.25 21:31:33 MSK (всего исправлений: 2)

Код не читал, но на вскидку вырисовывается что для выдачи ответа не стоит заводить никаких коллекций кроме исходного list пакетов и выходного list ответов

list ответов изначально инициализируем всеми None; он в дополнение к нескольким числовым переменным будет являться носителем состояния алгоритма.

Числовые переменные, описывающие состояние следующие:

такт времени (инициализируется T₀)
индекс пакетв во входном массиве пакетов, который начал обрабатываться в этот такт времени (инициализируется нулём)
степень занятости очереди в момент начала обработки пакета выше (инициализируется единицей)
индекс первого пакета про который мы ещё не знаем успел он попасть или был отброшен, так как время его прихода позже текущего такта (инициализируется единицей)

И далее пишем достаточно замороченный по коду но суммарно линейный по количеству пакетов (то бишь быстрый) алгоритм перехода такта времени от текущего к текущему + Dᵢ смотрим сколько пришло пакетов за период Dᵢ соответственно сдвигая актуальный размер очереди, индекс необработанных и сразу помечая те которые не влезли в массиве ответов -1 После этого сдвигаем индекс обрабатываемого, глядя на массив ответов - там где -1 то было отброшено, в очереди его нет. А там где None - то в очереди, надо обрабатывать

по идее с таким подходом в цикле не будет никакиз реаллокаций коллекций, а сложность будет линейной.

Грубо говоря внешний цикл итерирует по событиям начала и конца обработок, п внутренний по событиям прихода за период обработок. Но несмотря на вложенность циклов - суммарно по всем итерациям внешнего - внутренний сделает тоже коливество итераций что Nₚ и алгоритм будет линейным

GPFault ★★★
(06.08.25 01:26:52 MSK)

Ответ на: комментарий от anonymous 05.08.25 20:56:31 MSK

Думал, что ты все знаешь

Сдал экзамен по системам массового обслуживания в прошлом веке, и больше не вспоминал.

question4 ★★★★★
(06.08.25 02:38:25 MSK) автор топика

Что и как здесь можно ускорить?

Выкинуть питон?

cobold ★★★★★
(06.08.25 06:00:07 MSK)

как делать иначе?

Было бы неплохо разбить логику на более высокоуровневые элементарные операции и собрать решение из них, а то в бульоне из низкоуровневых действий трудно что-то понять.

Nervous ★★★★★
(06.08.25 07:21:24 MSK)
Последнее исправление: Nervous 06.08.25 07:21:45 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 06.08.25 02:38:25 MSK

Утро вечера мудреннее. Если я правильно понял твою задачу, то ее можно решить прямо вот так, как ты хочешь, используя изыки C#/F# и Haskell. Для C#/F# это пока только у меня на компьютере, а вот на Haskell можно сделать прямо сейчас (и бесплатно), используя библиотеку aivika. Там можно сделать все, что ты написал в своем коде на питоне, но придется программировать.

Однако я сейчас покажу, как можно сформулировать твою задачу на высокоуровневом языке VisualAivika. Это визуальная IDE, и нам придется пока втиснуться в существующие ограничения языка, но наградой будет то, что такую модель легко расширять. Также там легко строить графики и выводить статистику. Например, можно посмотреть график отклонений для трендов и доверительных интервалов по методу 3-сигм, можно вывести сводную статистику и гистограммы. Можно и провести анализ чувствительности к внешним параметрам.

Ниже будут приведены показатели, если для которых вывести экстремумы, то там четко будет видно, что мы не выходим за пределы ёмкости ресурса, который обрабатывает твои пакеты.

Проблема в твоем коде в том, что ты пытаешься использовать так называемый метод имитации, «управляемой временем». Концептуально это самый простой метод, но как ты сам заметил, у него есть изъяны в производительности, да и, честно говоря, ты замучаешься реализовывать что-то с более сложным поведением.

Итак, у нас есть поток входящих пакетов. В VisualAivika придется определить как поток внешних событий, где задержка между приходом событий подчиняется некоторому случайному распределению. Пусть задержка будет иметь целочисленное равномерное распределение от 0 до 5.

// это случайный поток пакетов
// (здесь распределение равномерное целочисленное от 0 до 5)
Packets = Stream.randomInt(0, 5);

Мы считаем, что при обработке пакетов есть предельная ёмкость очереди, а также введем параметр, который задаст максимальное время обработки пакетов.

// ёмкость очереди
Size = 5;

// максимальная длительность обработки
MaxDuration = 7;

Для блокировки обработки пакетов нам понадобится ресурс, который может обрабатывать не более одного пакета за раз.

// это ограниченный ресурс (прибор)
Resource = Facility.create();

Для ограничения ёмкости будем накапливать статистику по пакетам, находящимся в очереди ресурса на обработку. Для самоконтроля дополнительно еще будем учитывать количество пакетов в очереди (для иллюстрации идеи). Первые два момента могут совпадать с ресурсом, но верхний экстремум будет на 1 больше (из-за блокировки).

// для самоконтроля - сколько пакетов в очереди
AvailableQueue = Queue.create();

Нам, конечно, интересно количество отказов. Заведем статистику и для этого.

// чтобы посмотреть статистику по отказам
FailingQueue = Queue.create();

Теперь определим обработку пакетов (заявок, транзактов - кто как называет). Входящие заявки будут поступать на блок, который будет решать, а не превышена ли ёмкость ресурса? В зависимости от этого пакеты будут перенаправлены на соответствующие блоки.

// Здесь и далее в IDE переносы каретки придется заменить на пробелы,
// а знаки точки с запятой (в конце) вводить не нужно

// сюда поступают пакеты на обработку
Chain1Init =
  Block.select(if Facility.queueLength(Resource) < Size
               then Chain2Proceed
               else Chain3Fail);

Если ёмкость ресурса позволяет, то ставим пакет в очередь на обработку, где возможна блокировка всей цепочки, пока имитируем активность для обработки пакета.

// ёмкость ресурса позволяет обработать пакеты
Chain2Proceed =
  Block.queue(AvailableQueue) >>>
  Block.seize(Resource) >>>
  Block.depart(AvailableQueue) >>>
  Block.advance(randomInt(0, MaxDuration)) >>>    // это задержка (пусть равномерная)
  Block.release(Resource) >>>
  Block.terminate;

(продолжение следует)

anonymous
(06.08.25 12:09:11 MSK)

Ответ на: комментарий от question4 06.08.25 02:38:25 MSK

Иначе, если ёмкость ресурса заполнена, то считаем, что пакет теряется, но статистику все равно собираем, чтобы потом посмотреть ее на графиках, например, на графике отклонения (тренд + доверительные интервалы).

// просто собираем статистику по отказам в обработке пакетов
Chain3Fail =
  Block.queue(FailingQueue) >>>
  Block.depart(FailingQueue) >>>
  Block.terminate;

Теперь у нас есть все, чтобы запустить имитацию модели.

// запускаем всю модель
Runner = do! Block.runByStream(Packets, Chain1Init);

Настало время для вывода графиков и таблиц. Чтобы в VisualAivika посмотреть их, сначала нужно сформировать показатели. Показатели сами дискретно-событийные, но при переходе на графики часть из них немного огрубляется, но зато это позволяет использовать их в тех же системах обыкновенных дифференциальных уравнений (системная динамика).

// статистика (можно строить графики и таблицы)

// общее количество отказов
FailCount = Queue.enqueueCount(FailingQueue);

// общее количество пакетов, посланных на обработку
ProcessingCount = Queue.enqueueCount(AvailableQueue);

// время ожидания в очереди
WaitTime = Facility.waitTime(Resource);

// дискретизированная длина очереди (для ресурса ограниченной ёмкости)
Len = Facility.queueLength(Resource);

// фактическая статистика по длине очереди (для ресурса ограниченной ёмкости)
LenStats = Facility.queueLengthStats(Resource);

Экстремумы для Len и LenStats должны быть в пределах установленной ёмкости. Это можно увидеть, если вывести сводную статистику.

Тем не менее, для самоконтроля еще выведем дополнительные показатели.

// статистика для самоконтроля

// дискретизированный ограничитель очереди в моменте (верхний экстремум может случайно оказаться 1 + Size)
AvailableQueueLen = Queue.content(AvailableQueue);

// совокупная статистика по ограничителю очереди (верхний экстремум будет 1 + Size)
AvailableQueueLenStats = Queue.contentStats(AvailableQueue);

Короче, мы определи случайных поток входящих событий. Потом ввели ресурс ограниченной ёмкости, а при обработке ресурсом использовали случайную задержку.

Да, это отличается прямо от твоего кода. Это дает информацию о поведении системы в целом, но если тебе прямо нужно скармливать конкретные числа на входе и видеть конкретные числа на выходе, то тогда добро пожаловать в мир программирования на языке Haskell! Там можно всю эту модель повторить один-во-один, плюс у тебя будет вся мощь языка программирования.

anonymous
(06.08.25 12:09:58 MSK)

Ответ на: комментарий от anonymous 06.08.25 12:09:58 MSK

Мне одному кажется что этот анон или ИИ или ЕИ?

GPFault ★★★
(06.08.25 13:41:37 MSK)

на обработку которых нужно Di времени. Di может быть 0

За время 0 обработать что-либо невозможно. Даже принять не получится

upcFrost ★★★★★
(07.08.25 10:05:05 MSK)

Ответ на: комментарий от upcFrost 07.08.25 10:05:05 MSK

За время 0 обработать что-либо невозможно. Даже принять не получится

Таково условие задачи. Выжывающее больше всего проблем, судя по комментариям учащихся. Можно считать, например, что их обработка многократно быстрее кванта времени.

question4 ★★★★★
(09.08.25 17:23:04 MSK) автор топика

Ответ на: комментарий от question4 09.08.25 17:23:04 MSK

Выжывающее

Вызывающее

question4 ★★★★★
(09.08.25 18:09:16 MSK) автор топика

import sys, collections
ar = list(map(int, sys.stdin.read().split()))
size, npac = ar[0:2]
packets = [ar[lcv*2+2:lcv*2+4] for lcv in range(npac)]
queue = collections.deque()
log = [-1 for _ in range(npac)]
#tc = 0
t0 = 0
for pn in range(npac):
    cparrival, cpduration = packets[pn]
    # tc <= cparrival
    while len(queue) > 0 and t0 + queue[0][0] <= cparrival :
        d0, pn0 = queue.popleft()
        t0 = t0 + d0 #tc
        if queue: 
            log[queue[0][1]] = t0
            #t0 = tc

    #tc = cparrival
    if len(queue) < size:
        queue.append([cpduration, pn])
        if len(queue) == 1:
            log[pn] = cparrival
            t0 = cparrival

#tc = t0
while queue:
    d0, pn0 = queue.popleft()
    log[pn0] = t0
    t0 += d0

for p in log:
    print(p)

На 10⁶ пакетов с буферами длиной до 1000 ускорение примерно вдвое.

question4 ★★★★★
(10.08.25 23:50:13 MSK) автор топика
Последнее исправление: question4 11.08.25 00:19:51 MSK (всего исправлений: 1)

Ответ на: комментарий от Nervous 06.08.25 07:21:24 MSK

Было бы неплохо разбить логику на более высокоуровневые элементарные операции и собрать решение из них, а то в бульоне из низкоуровневых действий трудно что-то понять.

Да неплохо бы. Но как? Каждый раз, когда я это пытаюсь, в итоге вылазят какие-то мелочи, которые портят картину.

Например, разбил на:
⋄ В цикле перебирать прибывающие пакеты.
⋄⋄ Если очередь не пуста, перебирать пакеты в ней, пока время окончания обработки головы очереди ≤ времени прибытия следующего пакета.
⋄⋄⋄ Пока в очереди есть такие пакеты, каждый раз сбрасывать голову, заносить в лог следующий обрабатываемый пакет и сдвигать текущее время.
⋄⋄ Закончив с очередью, принять очередной пакет: занести его в хвост (если есть место), либо сбросить и занести в лог (если нет) и сдвинуть время.
⋄ Когда закончат прибывать пакеты, обработать оставшуюся очередь.

В итоге получилось, что нужен параллельный счётчик времени запуска очередной обработки головы. И его нужно не забыть передать из 3-го пункта в 5-й.

А заносить в лог сбрасываемые необязательно, можно проинициализировать его -1 и исправлять для несброшенных.

И очередь зацикливается, пришлось выходить через break.

И слишком много вложенных условий, некрасиво.

А когда я всё это упростил, без явного текущего времени tc которое где-то равно t0 (запуск обработки головы), где-то t0+d0 (окончание обработки головы), где-то cparrival (прибытие текущего пакета) становится сложно уследить за логикой.

question4 ★★★★★
(11.08.25 00:34:47 MSK) автор топика

Ответ на: комментарий от GPFault 06.08.25 01:26:52 MSK

Числовые переменные, описывающие состояние следующие:

такт времени (инициализируется T₀)

индекс пакетв во входном массиве пакетов, который начал обрабатываться в этот такт времени (инициализируется нулём)

степень занятости очереди в момент начала обработки пакета выше (инициализируется единицей)

индекс первого пакета про который мы ещё не знаем успел он попасть или был отброшен, так как время его прихода позже текущего такта (инициализируется единицей)

Примерно так я пытался сделать в первый раз. Почему-то работало долго. Реаллокации сводились к push-pop в списке с константным временем обработки концов. Судя по времени, обрабатывал каждый элемент вдвое больше раз, чем необходимо.

question4 ★★★★★
(11.08.25 00:40:59 MSK) автор топика

Ответ на: комментарий от router 05.08.25 21:30:29 MSK

В итоге как-то так и сделал. Проблема была уследить за текущим временем, которое поочерёдно привязывалось то к временам обработок в очереди, то к временам прибытий.

question4 ★★★★★
(11.08.25 00:45:12 MSK) автор топика

←	Прокинуть физическое устройство в эмулятор

Development

Где познать микроджаву(она же J2ME) в 2025?

→

Похожие темы