BASH оптимальный вариант для решения задачи

0

1

Есть файл в котором 500тыс. строк, строки состоят из двоичного кода. Нужно: если мы встречаем первыми двумя символами «11», то это означает что число отрицательное, далее отнимаем первые 2 символа от строки, а остальные инвертируем, т.е. 1 стал 0 и наоборот, затем переводим получившуюся строку в десятичное число и записываем в файл со знаком «-»; если мы встречаем первыми символами «00», «01» или «10», то это означает что число положительное, соответственно также отнимаем первые 2 символа, переводим в десятичное и записываем в файл. Скрипт работает, но считает очень долго, испробовал множество способов, как сам считаю оптимизировал по максимуму(я в BASH относительно новичок). ПОМОГИТЕ ускорить процесс….

while read Line
do
a=11
if [[ "${Line:0:2}" == "$a" ]]
then
echo "-"$((2#$(echo ${Line:2:14} | sed -e 's/0/w/g; s/1/q/g' | sed -e 's/w/1/g; s/q/0/g')))
else
echo $((2#${Line:2:14}))
fi
done <file.txt

Ссылка

← У какого дистрибутива больше время работы от батареи на ноутбуке?

Команда find →

Как минимум сократи число конвейеров и лишних вызовов команд

echo "-"$((2#$(echo ${Line:2:14} | sed -e 's/0/w/g; s/1/q/g' -e 's/w/1/g; s/q/0/g')))

Перепиши на компилируемом языке c/c++.

kostik87 ★★★★★
(01.12.22 13:21:59 MSK)
Последнее исправление: kostik87 01.12.22 13:22:09 MSK (всего исправлений: 1)

Есть золотое правило: «ничего лишнего в цикле». Справедливо для любого языка программирования.

Есть абсолютно «новичковая» ошибка: «a=11». Абсолютно нечего ей делать внутри цикла.

andytux ★★★★★
(01.12.22 13:59:16 MSK)

Ответ на: комментарий от kostik87 01.12.22 13:21:59 MSK

Спасибо, сэкономил 42 секунды, но все же результат вычисляется 10мин.

max27_09
(01.12.22 14:14:31 MSK) автор топика

Ссылка

Ответ на: комментарий от andytux 01.12.22 13:59:16 MSK

Спасибо, разница получилась в -5 секунд. Но на 10мин. это не панацея.

max27_09
(01.12.22 14:17:45 MSK) автор топика

Ответ на: комментарий от max27_09 01.12.22 14:17:45 MSK

там где надо инвертировать (4095 – для 12бит)

echo $((2#$(echo ${Line:2:14}))) | awk '{print xor($1, 4095)}'

можно так записать

awk '{print xor($1, 4095)}' <<< $((2#$(echo ${Line:2:14})))

futurama ★★★★★
(01.12.22 14:21:39 MSK)
Последнее исправление: futurama 01.12.22 14:26:22 MSK (всего исправлений: 3)

Ответ на: комментарий от max27_09 01.12.22 14:17:45 MSK

работа с такими низкоуровневыми данными явно задача не для баш.лапши

pfg ★★★★★
(01.12.22 14:23:25 MSK)

Ответ на: комментарий от pfg 01.12.22 14:23:25 MSK

Ну такие у него лабораторные задания

futurama ★★★★★
(01.12.22 14:24:48 MSK)

Ссылка

По мне это легче на си реализовать, и работать будет по щелчку пальца.

voltmod ★★★
(01.12.22 14:37:36 MSK)

Ответ на: комментарий от voltmod 01.12.22 14:37:36 MSK

Полностью с вами согласен, но нужно так…

max27_09
(01.12.22 14:41:24 MSK) автор топика

Ссылка

Ответ на: комментарий от futurama 01.12.22 14:21:39 MSK

Не совсем вас понял, не корректно работает.

max27_09
(01.12.22 14:42:10 MSK) автор топика

Ответ на: комментарий от max27_09 01.12.22 14:42:10 MSK

Что именно не работает? У тебя числа 12битные (после отрезания 2х знаковых битов)


# echo $((2#$(echo ${Line:2:14}))) | awk '{print xor($1, 4095)}' 
  echo $((2#${Line:2:14}))         | awk '{print xor($1, 4095)}'

futurama ★★★★★
(01.12.22 14:54:44 MSK)
Последнее исправление: futurama 01.12.22 15:00:57 MSK (всего исправлений: 2)

Ответ на: комментарий от futurama 01.12.22 14:54:44 MSK

Единицы и нули не инвертируются. Результат

echo $((2#${Line:2:14}))

полностью совпадает с результатом

echo $((2#${Line:2:14}))         | awk '{print xor($1, 4095)}'

max27_09
(01.12.22 15:07:14 MSK) автор топика

x=6144 #b1100000000000
m=2047 #  b11111111111
while read Line; do
  num=$((2#$Line))
  if [[ "$num" -ge $x ]]; then
    num=$(($num-$x))
    echo "-"$(( $num ^ $m ))
  else
    echo $((2#${Line:2:14}))
  fi
done <file.txt

Результат

$ time ./aaa.sh | wc -l
500000

real	0m6.444s
user	0m5.619s
sys	0m2.023s

futurama ★★★★★
(01.12.22 15:14:07 MSK)
Последнее исправление: futurama 01.12.22 15:29:19 MSK (всего исправлений: 6)

Ссылка

echo "-"$((2#$(echo ${Line:2:14} | sed -e 's/0/w/g; s/1/q/g' | sed -e 's/w/1/g; s/q/0/g')))

замени на

echo "-"$(( 2#$( ${Line:2:14}) ^ 2#111111111111 ))

Psilocybe ★★★★★
(01.12.22 15:15:32 MSK)
Последнее исправление: Psilocybe 01.12.22 15:19:40 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от max27_09 01.12.22 15:07:14 MSK

покажи содержимое $Line

futurama ★★★★★
(01.12.22 15:19:32 MSK)

Ответ на: комментарий от max27_09 01.12.22 15:07:14 MSK

Прошу прощения. Я понял ошибку, у меня должно быть 11 бит для конвертации. Ваш код корректно работает для 12 бит.

max27_09
(01.12.22 15:19:57 MSK) автор топика

Ответ на: комментарий от futurama 01.12.22 15:19:32 MSK

1111110010100 1111110010100 1111110010100 1111110010100 1111110010100 … … 0000010011110 0000010011100 0000010011100 0000010011100 0000010011011

max27_09
(01.12.22 15:21:11 MSK) автор топика

Ссылка

Ответ на: комментарий от max27_09 01.12.22 15:19:57 MSK

замени маску инвертирования с 4095 на 2047

futurama ★★★★★
(01.12.22 15:21:18 MSK)

Ответ на: комментарий от futurama 01.12.22 15:21:18 MSK

на 2047

Не морочь парню голову. В баш можно и в двоичном виде писать. Вот твоя маска

2#11111111111

Psilocybe ★★★★★
(01.12.22 15:36:13 MSK)
Последнее исправление: Psilocybe 01.12.22 15:36:29 MSK (всего исправлений: 1)

Ответ на: комментарий от Psilocybe 01.12.22 15:36:13 MSK

это же очевидно из всех предыдущих скриптов. эта форма записи используется тут постоянно

futurama ★★★★★
(01.12.22 15:39:12 MSK)

Ответ на: комментарий от futurama 01.12.22 15:39:12 MSK

Всем спасибо! По итогу получилось урезать время выполнения до 35 секунд. @futurama, снимаю перед Вами шляпу и восхищаюсь умениями.

max27_09
(01.12.22 15:53:36 MSK) автор топика

Ответ на: комментарий от max27_09 01.12.22 15:53:36 MSK

У меня i3-8100 за 6.4 сек BASH оптимальный вариант для решения задачи (комментарий)

futurama ★★★★★
(01.12.22 16:03:29 MSK)

Ответ на: комментарий от futurama 01.12.22 16:03:29 MSK

Не могу я себе позволить наградить виртуальную машину подобными характеристиками)

max27_09
(01.12.22 16:10:55 MSK) автор топика

Ответ на: комментарий от max27_09 01.12.22 16:10:55 MSK

Мне все-равно, это просто для сравнения

futurama ★★★★★
(01.12.22 17:48:56 MSK)

Ответ на: комментарий от futurama 01.12.22 17:48:56 MSK

Мне все-равно, это просто для сравнения

Раз уж у вас есть большой тестовый файл, всегда было интересно, будет ли быстрее если писать красиво - убрать совсем не нужные $ и тем более кавычки в [[ ]] и в (( ))

vodz ★★★★★
(02.12.22 22:34:08 MSK)

Ответ на: комментарий от vodz 02.12.22 22:34:08 MSK

я уже удалил файл, но вот он (работает долго, лучше ограничиться 50к и потом cat его 10 раз)

for ((i=0; i<500000; i++)); do
  a=`echo "obase=2; $(($RANDOM % 8192))" | bc`;
  echo "000000000000$a" | sed -r 's/.*(.{13})$/\1/' >> bin_500k.txt
done

красиво это как-то так?

let x=2#1100000000000
let m=2#0011111111111

while read Line; do
  let num=2#$Line
  if [[ num -ge x ]]; then
    let num=(num-x)^m
    echo "-$num"
  else
    let num=num\&m
    echo "$num"
  fi
done <file.txt

futurama ★★★★★
(02.12.22 23:02:10 MSK)
Последнее исправление: futurama 02.12.22 23:21:08 MSK (всего исправлений: 2)

Ответ на: комментарий от futurama 02.12.22 23:02:10 MSK

красиво это как-то так?

Вы не поняли, я не просил убирать $(( )), let для bash устаревший синтаксис, я к тому, что юзать $var внутри $(( )) надо только для специальных случаев, как раз парочка таких там есть: ((2#$Line)), но остальные достаточно num=$((num ^ m)) и так далее. Для [[ -ge ]] - поняли правильно, ведь это одно из отличий [[ ]] от [ ], для чего и делалось в том числе.

vodz ★★★★★
(03.12.22 08:16:45 MSK)

Ответ на: комментарий от vodz 03.12.22 08:16:45 MSK

Весь этот синтаксический сахар не влияет на быстродействие баша. Только форк/екзек тормозит выполнение скриптов, по понятным причинам.

futurama ★★★★★
(03.12.22 09:55:52 MSK)

Ответ на: комментарий от futurama 03.12.22 09:55:52 MSK

Весь этот синтаксический сахар не влияет на быстродействие баша.

Видите ли, внутри (( )) переменные резольвятся тривиально, а на код резольинга $var страшно смотреть, уж поверьте, я не только там смотрел, но и правил его в dash с принятием патчей в апстрим.

vodz ★★★★★
(03.12.22 10:24:33 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← У какого дистрибутива больше время работы от батареи на ноутбуке?

General

Команда find →

Похожие темы