Помогите написать скрипт на bash

bash

0

1

Здравствуйте. Есть два текстовых файла: file_1.txt и file_2.txt

file_1.txt содержит строки: Мария Виктор Анна Дмитрий

file_2.txt содержит строки: Дмитрий Сергей Анна Василий

Мне нужно в новый файл file_3.txt записать строки из file_2.txt, которых нет в файле file_1.txt

Возможно это просто сделать средствами bash linux?

Ссылка

← Слишком быстрый вертикальный скроллинг на тачпаде.

Как с помощью ffmpeg нарезать видео, зная конечный размер файла? →

https://www.linux.org.ru/forum/job/

ashot ★★★★
(26.02.22 16:23:24 MSK)

Ссылка

fgrep -v -f file_1.txt file2.txt > file_3.txt

anonymous
(26.02.22 16:25:54 MSK)

Ответ на: комментарий от anonymous 26.02.22 16:25:54 MSK

Подскажите лучше, чем сделать shuf для большого файла, который не влазит в память? https://github.com/alexandres/terashuf есть ли что то лучше?

anonymous
(26.02.22 16:28:46 MSK)

Конечно, возможно. Но лучше сначала в армию, а потом попробовать снова.

targitaj ★★★★★
(26.02.22 16:47:43 MSK)
Последнее исправление: targitaj 26.02.22 16:47:48 MSK (всего исправлений: 1)

Возможно это просто сделать средствами bash linux?

Да.

Shushundr ★★★★★
(27.02.22 06:37:24 MSK)

Ссылка

начни с малого
hxxps://www.google.com/search?q=bash conditional expression

anonymous
(27.02.22 18:38:37 MSK)

Ссылка

Да, возможно, но если в каком-то файле будет имя Владимир - скрипт сломается же.

Anoxemian ★★★★★
(27.02.22 18:42:00 MSK)

Ссылка

Ответ на: комментарий от targitaj 26.02.22 16:47:43 MSK

мм… остроумие на других сайтах.

AlCat
(28.02.22 11:18:08 MSK) автор топика

Ответ на: комментарий от anonymous 26.02.22 16:28:46 MSK

Подскажите лучше, чем сделать shuf для большого файла, который не влазит в память? https://github.com/alexandres/terashuf есть ли что то лучше?

Правильно ли я понял, что там берется K строк и только этими кусками шафлит?

vodz ★★★★★
(28.02.22 11:45:23 MSK)

Ответ на: комментарий от vodz 28.02.22 11:45:23 MSK

terashuf shuffles as follows:
Divide N input lines into K files containing L lines.
Shuffle each of the K files (this is done in memory before writing the file).
Sample one of the K files where the probability of drawing a file is proportional to the number of lines remaining in the file.
Pop the first line from the sampled file and write it to output.
Repeat 3-4 until all lines have been written to output.

А какие ещё есть решения этой задачи, если данные не влезают в память? Я серьезно, часто такое нужно.

Ещё был бы признателен за совет, как из таких файлов оптимально выкидывать дубли строк, а то sort -u тормозит очень.

anonymous
(28.02.22 11:57:15 MSK)

Ответ на: комментарий от AlCat 28.02.22 11:18:08 MSK

Чем не подошёл вариант с grep? Нужно именно на bash?

anonymous
(28.02.22 11:59:37 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.02.22 11:57:15 MSK

А какие ещё есть решения этой задачи, если данные не влезают в память? Я серьезно, часто такое нужно.

Вы не поверите, но шафлить можно было и на 64k памяти. Если не влезают в память offset-ы строк, то тогда свопили память под offset-ы. Но сейчас же ничего не надо, mmap-ите файл, сколько система сможет, столько памяти вам под это дело и закеширует, вам даже ничего делать специально не надо.

vodz ★★★★★
(28.02.22 12:35:36 MSK)