Прямо с зачёта пишешь?

greenman ★★★★★
(26.05.15 19:05:07 MSK)

Ответ на: комментарий от greenman 26.05.15 19:05:07 MSK

)) Нет, отчёт нужен. Сам второй день не могу решить.

Monsoon
(26.05.15 19:13:06 MSK) автор топика

Ответ на: комментарий от Monsoon 26.05.15 19:13:06 MSK

fdupes не поможет?

greenman ★★★★★
(26.05.15 19:19:01 MSK)

[1]

Ты такой оценки и заслуживаешь. Жаль, отменили их ☹

Я так понял, тебе нужно и в подкаталогах эти файлы искать? Ну так читай man find. Но это долго. Я бы сделал точно так же, как в своем скрипте по поиску одинаковых файлов (а не одинаковых имен): в БД sqlite сливается выхлоп find, а потом ищутся дубликаты.

~~Eddy_Em~~ ☆☆☆☆☆
(26.05.15 19:21:48 MSK)

Ссылка

Ответ на: комментарий от greenman 26.05.15 19:19:01 MSK

Я его установить не смог. Вообще желательно цикл c 2 for -ами.

Monsoon
(26.05.15 19:23:52 MSK) автор топика

Ответ на: комментарий от Monsoon 26.05.15 19:23:52 MSK

желательно цикл c 2 for -ами

На баше?

Я тебя поздравляю! Тестовую директорию с 1024 вложенными поддиректориями по 100500 файлов в каждой ты будешь очень долго for'ами сравнивать!

Сделай в sqlite БД с двумя полями: filename и fullpath. В первое заноси basename найденных файлов, а во второе — путь к ним (это можно при помощи одного прогона find сделать). А потом ищи дубликаты по filename.

~~Eddy_Em~~ ☆☆☆☆☆
(26.05.15 19:30:29 MSK)

Ответ на: комментарий от Eddy_Em 26.05.15 19:30:29 MSK

Я нашёл похожую задачу (типо записать в другой файл эти одинкавые файлы), но не смог перестроить. Там всего 16 строчек. Это не так много.

Monsoon
(26.05.15 19:34:26 MSK) автор топика

Ссылка

Ответ на: комментарий от Monsoon 26.05.15 19:23:52 MSK

c 2 for -ами

Не нужно.

Stil ★★★★★
(26.05.15 19:35:50 MSK)

Ссылка

Ответ на: комментарий от Monsoon 26.05.15 19:13:06 MSK

имена которых задаются первым и вторым параметрами сценария
вывести на экран
отчёт нужен

на лабу?

cdshines ★★★★★
(26.05.15 19:36:40 MSK)

Ответ на: комментарий от cdshines 26.05.15 19:36:40 MSK

Ну типо

Monsoon
(26.05.15 19:38:03 MSK) автор топика

man comm

5$ вышлешь после прочтения

MKuznetsov ★★★★★
(26.05.15 19:44:28 MSK)

Ответ на: комментарий от Monsoon 26.05.15 19:38:03 MSK

read a read b for file in `ls $a | xargs -n 1 -i echo $a/{}` do for file in `ls $b | xargs -n 1 -i echo $b/{}` do { diff - acs «$file1» «$file2» > «/home/user/abc.sh» if [ $? ] then echo «123» fi } done done

Этот код пытался переделать.

Monsoon
(26.05.15 19:48:47 MSK) автор топика

Ссылка

Ответ на: комментарий от MKuznetsov 26.05.15 19:44:28 MSK

man comm

Он файлы сравнивает. Как там каталоги указать, в которых хочу их сравнивать?

Monsoon
(26.05.15 19:58:30 MSK) автор топика

Ответ на: man comm от Monsoon 26.05.15 19:58:30 MSK

отжеж

$ mkdir -p /tmp/c1 /tmp/c2 && for i in {1..10}; do touch /tmp/c1/file$i; touch /tmp/c2/file$i; done && \
rm /tmp/c2/file{5,6,7} && cd /tmp/c1/ && ls > /tmp/c1.list && cd /tmp/c2/ && ls > /tmp/c2.list && \
comm -12 /tmp/c1.list /tmp/c2.list

anTaRes ★★★★
(26.05.15 20:00:55 MSK)

Решение на YobaLisp:

(yoba-intersection 
    (yoba-get-file-list yoba-arg-1)
    (yoba-get-file-list yoba-arg-2))

Deleted
(26.05.15 20:02:00 MSK)

Ссылка

Ответ на: комментарий от anTaRes 26.05.15 20:00:55 MSK

Ща попробую

Monsoon
(26.05.15 20:02:09 MSK) автор топика

Ссылка

Ответ на: комментарий от Monsoon 26.05.15 19:23:52 MSK

Вообще желательно цикл c 2 for -ами.

Ужас какой.
Сортируешь по размеру, у совпадающих размеров проверяшь совпадение md5-хэша.

haku ★★★★★
(26.05.15 20:04:11 MSK)

Ответ на: man comm от Monsoon 26.05.15 19:58:30 MSK

Он файлы сравнивает. Как там каталоги указать, в которых хочу их сравнивать?

со скидкой, всего 3$: man ls, man tmpfile

и заодно уж, бесплатно: посчитать число строчек - это «wc -l»

PS/ ещё чуть и дойдём до стольника :-)

PPS/ сдаётся мне, что я продешевил..

MKuznetsov ★★★★★
(26.05.15 20:06:25 MSK)

Ссылка

Ответ на: комментарий от haku 26.05.15 20:04:11 MSK

Ему только по именам задали.

greenman ★★★★★
(26.05.15 20:07:07 MSK)

Ссылка

Нужен bash код.

А что не поставил соответствующий тег?

А вообще в /Job.

sT331h0rs3 ★★★★★
(26.05.15 20:19:39 MSK)

Ссылка

Ответ на: комментарий от Monsoon 26.05.15 19:38:03 MSK

Так надо было на пары ходить в семестре!

cdshines ★★★★★
(26.05.15 20:49:13 MSK)

Ссылка

#!/bin/bash

declare -A s

pushd "$1" >/dev/null
for f in *; do
    s["$f"]=1
done

popd >/dev/null

pushd "$2" >/dev/null
for f in *; do
    if [ "${s[$f]}" = "1" ]; then
	echo "Found $f in both dirs"
        i=$((i+1))
    fi
done
popd >/dev/null

echo "Found: $i eq. files"

$ mkdir /tmp/{1,2}
$ touch /tmp/1/{abc,bcd,cde,def}
$ touch /tmp/2/{abC,bcd,Cde,def,11}
$
$ ./fdupes.sh /tmp/1 /tmp/2
Found bcd in both dirs
Found def in both dirs
Found: 2 eq. files

anonymous
(26.05.15 20:53:36 MSK)

diff -asr /dir1/ /dir2/

или както так

mm3 ★★★
(26.05.15 21:04:59 MSK)

Ссылка

в тегах, надо думать, вероятное содержимое зачетки.

~~mos~~ ★★☆☆☆
(26.05.15 21:24:09 MSK)

Ссылка

Ответ на: комментарий от greenman 26.05.15 19:05:07 MSK

вспомнилось

- Банкет?
- Не… Обед…
(с) Кин-дза-дза

~~mos~~ ★★☆☆☆
(26.05.15 21:25:29 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.05.15 20:53:36 MSK

anonymous (26.05.2015 20:53:36)

Чувак, спасибо, но поясните, если у меня есть 2 каталога (read a; read b) то куда в этом коде мне их вписать?

Monsoon
(26.05.15 22:23:58 MSK) автор топика

Файлы считаются одинаковыми если у них одинаковые имена? Или имеет значение размер, чексумма и т.д.? Если второе то, ИМХО, проще использовать DCVS

at ★★
(26.05.15 22:32:06 MSK)

Ответ на: комментарий от at 26.05.15 22:32:06 MSK

Файлы считаются одинаковыми если у них одинаковые имена?

Да просто 2 папки. Размер не важен. Вместо чего в коде написать a и b?

Monsoon
(26.05.15 22:38:48 MSK) автор топика

Ответ на: Файлы считаются одинаковыми если у них одинаковые имена? от Monsoon 26.05.15 22:38:48 MSK

Возможно будет проще парсить вывод diff -arq folder1 folder2

at ★★
(26.05.15 22:44:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.05.15 20:53:36 MSK

можно вообще что-то по мотивам:

#!/bin/sh
difference=`cp -f --no $1 $2 2>&1`

в $difference будет список имён которые есть и в 1$ и в $2 :-)

MKuznetsov ★★★★★
(26.05.15 22:50:04 MSK)

Ответ на: комментарий от MKuznetsov 26.05.15 22:50:04 MSK

в $difference будет список имён которые есть и в 1$ и в $2 :-)

Ок, что на это заменить?

Monsoon
(26.05.15 22:57:12 MSK) автор топика

Ссылка

Ответ на: комментарий от MKuznetsov 26.05.15 22:50:04 MSK

Но при этом файлы будут копироваться, что может занять некоторое время и не нужно по ТЗ

at ★★
(26.05.15 23:29:36 MSK)

Ответ на: комментарий от at 26.05.15 23:29:36 MSK

и не нужно по ТЗ

по ТЗ нужно вывести список файлов, чьи имена одинаковы в обоих каталогах. ВСЁ. А что «можно делать с файлами тама ни сказана» :-) Что не запрещенно, то разрешено - пусть им на лабу дают чёткое ТЗ

и у «cp» вволю флагов чтобы лишний раз не копировать, пусть ТС их изучает :-)

MKuznetsov ★★★★★
(26.05.15 23:42:18 MSK)

fdupes

/thread

beastie ★★★★★
(26.05.15 23:43:10 MSK)

Ответ на: комментарий от beastie 26.05.15 23:43:10 MSK

Ошибка: Bad fd number

Вот что получилось #!/bin/sh read a read b difference=`cp -f --no $a/* $b/* 2>&a` fdupes difference

Monsoon
(27.05.15 00:00:12 MSK) автор топика

Ссылка

Ответ на: комментарий от MKuznetsov 26.05.15 23:42:18 MSK

Что не запрещенно, то разрешено - пусть им на лабу дают чёткое ТЗ

dd тогда ему в раздел
ну а чо :)

anTaRes ★★★★
(27.05.15 00:07:44 MSK)

Ответ на: комментарий от anTaRes 27.05.15 00:07:44 MSK

dd тогда ему в раздел

а звучит-то как ! брутальнее чем «Х?р в Ж??у» :-)

кстати, идея:

#!/bin/sh
rm -rf $2/* && echo "в каталогах $1 $2 нет одноимённых файлов"

MKuznetsov ★★★★★
(27.05.15 00:14:37 MSK)
Последнее исправление: MKuznetsov 27.05.15 00:15:22 MSK (всего исправлений: 1)

find . -exec basename {} \; | sed 's/\(.*\)\..*/\1/' | sort | uniq -c | grep -v "^[ \t]*1 "

Благодари

yacuken ★★★★
(27.05.15 00:16:35 MSK)

Ответ на: комментарий от MKuznetsov 27.05.15 00:14:37 MSK

Хорошо конечно, но первая часть не работает: dupes not found

Monsoon
(27.05.15 00:16:59 MSK) автор топика

Ссылка

Ответ на: комментарий от yacuken 27.05.15 00:16:35 MSK

Благодари

Чувак, где тут свои каталоги указывать?

Monsoon
(27.05.15 00:23:40 MSK) автор топика

Ответ на: комментарий от MKuznetsov 27.05.15 00:14:37 MSK

«таблица существовала» (с)

anTaRes ★★★★
(27.05.15 00:24:46 MSK)

Ссылка

Ответ на: Благодари от Monsoon 27.05.15 00:23:40 MSK

Всё внимание на find .

yacuken ★★★★
(27.05.15 00:27:25 MSK)

Ответ на: комментарий от yacuken 27.05.15 00:27:25 MSK

Если честно я не понял что тут нужно дописать. Возможно find . -name $a/* а что тогда дальше? Какой тут процесс над ним можно выполнить?

Monsoon
(27.05.15 00:41:21 MSK) автор топика

Ответ на: комментарий от Monsoon 27.05.15 00:41:21 MSK

find dir1 dir2 dirN -exec basename ... и далее по командам

yacuken ★★★★
(27.05.15 01:02:45 MSK)

Ссылка

Алсо, я вроде нашел твоего препода, скриншот треда я сделал, пишу сейчас письмецо ему. :) Надеюсь, я не ошибся преподом. :)

cherry-pick
(27.05.15 01:27:34 MSK)

Ссылка

Ответ на: anonymous (26.05.2015 20:53:36) от Monsoon 26.05.15 22:23:58 MSK

у меня есть 2 каталога (read a; read b)

$a вместо $1
$b вместо $2

P.S. Всё хуже чем я думал.

anonymous
(27.05.15 08:12:51 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.05.15 22:50:04 MSK

Я написал тот код, только потому что это был чистый баш, без coreutils и прочих утилит.

anonymous
(27.05.15 08:14:53 MSK)

Ссылка

Ответ на: комментарий от beastie 26.05.15 23:43:10 MSK

Испугайся!

#!/bin/sh
#	2 минуты 12.38 секунд  на 12'989 файлов общим размером 10'026'786'125 байт
#		(стало: 9'919'093'813 байт)
#	1 минута 13.00 секунд на 10'399 файлов общим размером 27'171'656'169 байт
#		(стало: 26'401'660'287 байт)
#	1 минута 17.82 секунд на 8'686 файлов общим размером 11'474'216'791 байт
#		(стало: 11'131'537'062 байт)
#	3 минуты 19.77 секунд на 16'257 файлов общим размером 70'697'892'519 байт
#		(стало: 69'132'667'051 байт)
#

FILELIST="/tmp/filelist_4_mysql"
SQLFILE="/tmp/tmp_4_mysql"
OUTP="/tmp/double_files"
DB="/tmp/filelistdb"

STEP_CNTR=0
#DUP_CNTR=0

if [ "$1" = "-h" ]; then
	echo "Usage: $(basename $0) [-h|-d|-l]"
	echo -e "\t-h\tshow this help"
	echo -e "\t-l\tmake hardlinks for duplicates"
	echo -e "\t-d\tdelete duplicates"
	exit 1
fi

function SQL(){
	echo -e $* | sqlite3 $DB
}

function SQLF(){
	sqlite3 $DB < $SQLFILE
}


function Step(){
	STEP_CNTR=$[$STEP_CNTR + 1 ]
	echo -e "\n\e[1;32m$STEP_CNTR\t\t$*...\e[0m"
}

rm -f $FILELIST $SQLFILE $OUTP $DB

Step "Init database"
SQL "create table files(filename string, filesize integer); create table dups(filename string, filemd5 long);"

Step "Making list of files"
find  -type f -printf "%p\t%s\n" > $FILELIST

Step "Finding files with same size"
cat > $SQLFILE << EOF
delete from files;
.mode tabs
.import /tmp/filelist_4_mysql files
delete from files where filesize in (select filesize from (select filesize,count(*) c from files group by filesize having c = 1) T);
delete from files where filesize = 0;
select filesize from files group by filesize;
EOF

SQLF > $OUTP

cat > $SQLFILE << EOF
delete from dups;
.mode tabs
.import /tmp/filelist_4_mysql dups
delete from dups where filemd5 in (select filemd5 from (select filemd5,count(*) c from dups group by filemd5 having c = 1) T);
select filename from dups group by filemd5;
EOF

Step "Finding duplicates"
while read SIZE
do
	rm -f $FILELIST
	SQL "select filename from files where filesize = $SIZE ;" | while read FILE
	do
		MD=$(sha1sum -b "$FILE" | awk '{print $1}' 2>/dev/null);
		if [ "$MD" != "" ]; then
			echo -e "$FILE\t$MD" >> $FILELIST
		else
			echo -e "\e[1;31;40mCant read MD5 of $FILE\e[0m\nTrace:"
			SQL "select filename from files where filesize = $SIZE;" 
		fi
	done
	SQLF | while read FILE
	do
		echo -e "\n\e[1;41;33m$FILE\e[36m has dublicates:\e[0m"
		SQL "select filename from dups where filemd5 = (select filemd5 from dups where filename = \"$FILE\") AND filename != \"$FILE\";"  | while read D_FILE
		do
			echo -e "\e[1;32;40m$D_FILE\e[0m"
			[ "$1" = "-d" ] && rm -f "$D_FILE" && echo "deleted"
			[ "$1" = "-l" ] && ln -f "$FILE" "$D_FILE" && echo "linked"   #|| ln -fs "$FILE" "$D_FILE" || echo -e "\e[1;31;40merror linking $FILE to $D_FILE!!!\e[0m"
		done
	done
done < $OUTP

Step "Deleting trash"
#echo "delete from files; delete from dups;" 
rm -f $FILELIST $SQLFILE $OUTP $DB

Вот только ТСу не это нужно, а тупо найти одноименные файлы.

Если бы ему хватило мозгов, он бы мог взять этот скриптик и маленько видоизменить его.

~~Eddy_Em~~ ☆☆☆☆☆
(27.05.15 08:56:30 MSK)

Ответ на: Испугайся! от Eddy_Em 27.05.15 08:56:30 MSK

ппц ты, эдди, наркоман.

ymn ★★★★★
(27.05.15 09:47:56 MSK)

Ответ на: комментарий от ymn 27.05.15 09:47:56 MSK

Я просто сначала этот скрипт накатал, а только потом узнал про fdupes.

Но хоть fdupes и шустрей в 2 раза, мне все равно мой скрипт милей.

~~Eddy_Em~~ ☆☆☆☆☆
(27.05.15 09:49:25 MSK)

man comm

вспомнилось

anonymous (26.05.2015 20:53:36)

Файлы считаются одинаковыми если у них одинаковые имена?

в $difference будет список имён которые есть и в 1$ и в $2 :-)

Ошибка: Bad fd number

Благодари

Испугайся!

Похожие темы