Люди, а чем вы грепаете *.docx файлы?

docx, grep

0

2

Это которые MS Office Word версий 2007 и старше созданы.

catdoc с такими не работает

docx2txt на них пустой текст выдает

Причем нужно, чтобы русский текст спокойно искало.

Ссылка

← Какой оптимальный дистрибутив для планшета с 2гб ОЗУ?

Хочу собрать свой собственный «дистрибутив» на основе Gentoo →

Не нужно

anonymous
(25.12.21 22:43:48 MSK)

Ссылка

старше – это до версий 2007?

anonymous
(25.12.21 22:50:05 MSK)

Ответ на: комментарий от anonymous 25.12.21 22:50:05 MSK

Наоборот.

praseodim ★★★★★
(25.12.21 22:56:01 MSK) автор топика

Сохрани либрой в odt, потом все будет ОК.

anonymous
(25.12.21 23:00:24 MSK)

zipgrep

~~i586~~ ★★★★★
(25.12.21 23:08:01 MSK)

Ссылка

это же простой zip

Anoxemian ★★★★★
(25.12.21 23:09:11 MSK)

Ответ на: комментарий от anonymous 25.12.21 23:00:24 MSK

Все 100500 (ну пусть меньше) файлов? И кстати, в odt чем грепать =)

praseodim ★★★★★
(25.12.21 23:18:03 MSK) автор топика

Ссылка

Ответ на: комментарий от Anoxemian 25.12.21 23:09:11 MSK

Ну то есть, чтобы поискать в куче файлов надо писать скрипты, которые ищут, распаковывают zip, ищут там текст, причем с учетом кодировок и т.д.

Блин, неужто нет удобного средства?

praseodim ★★★★★
(25.12.21 23:18:58 MSK) автор топика

Ответ на: комментарий от praseodim 25.12.21 23:18:58 MSK

unzip -p file.docx|grep whatever

Anoxemian ★★★★★
(25.12.21 23:25:40 MSK)

7z l foo.docx
потом извлекаешь оттуда xml-ку, которая тебе нужна, потом грепаешь её

anonymous
(25.12.21 23:29:59 MSK)

Ответ на: комментарий от Anoxemian 25.12.21 23:25:40 MSK

Мне нужно просто, чтобы искать в куче файлов сразу с разными притом кодировками.

В общем, проще всего, пока ждал ответа, оказалось запустить винду в VirtualBox и там в FAR поискать. mc не умеет в отличие от far рыться в архивах и сразу с разными кодировками. Между прочим пакета zipgrep в Debian не нашлось

Far для Linux у меня в debian тоже нет, а сразу не поставилось.

Вот как-то так, блин получается.

praseodim ★★★★★
(25.12.21 23:30:16 MSK) автор топика

Ответ на: комментарий от anonymous 25.12.21 23:29:59 MSK

Мне нужно несколько тысяч файлов просмотреть. Один-два файла мне проще банально открыть в LibreOffice и сделать Ctrl+F чем извращаться.

praseodim ★★★★★
(25.12.21 23:31:28 MSK) автор топика

Ответ на: комментарий от praseodim 25.12.21 23:30:16 MSK

unzip -p file.docx|iconv -t UTF-8|grep whatever

Anoxemian ★★★★★
(25.12.21 23:33:11 MSK)

Ответ на: комментарий от Anoxemian 25.12.21 23:33:11 MSK

iconv научился автоматически определять входную кодировку?

praseodim ★★★★★
(25.12.21 23:34:55 MSK) автор топика

Apache Tika. Там есть command line утилита и ещё сервак в который можно curl’ом забрасывать файлы.

maxcom ★★★★★
(25.12.21 23:35:09 MSK)

Ответ на: комментарий от praseodim 25.12.21 23:34:55 MSK

ну замени на enca

Anoxemian ★★★★★
(25.12.21 23:37:39 MSK)

Ссылка

Ответ на: комментарий от praseodim 25.12.21 23:30:16 MSK

Не нашлось, потому что zipgrep это не пакет, а команда из пакета unzip.

Aegir
(25.12.21 23:39:31 MSK)

Ссылка

Ответ на: комментарий от maxcom 25.12.21 23:35:09 MSK

доброй ночи
вы можете посмотреть, почему движок преобразует два знака минуса подряд в знак тире? Сегодня случайно обнаружил с подачи другого анонимуса (суть проблемы - 99% опций в GNU-style используют два знака минуса)

anonymous
(25.12.21 23:43:33 MSK)

Ответ на: комментарий от maxcom 25.12.21 23:35:09 MSK

Спасибо, радикальное решение вопроса. Правда для текущих целей оно несколько оверскилл при том, что вроде готовых утилит для выделения текста там нет. Но буду иметь ввиду, реально может пригодиться в будущем.

praseodim ★★★★★
(25.12.21 23:49:24 MSK) автор топика

Ответ на: комментарий от anonymous 25.12.21 23:43:33 MSK

Используй экранирование кода. Например git --version. Подробности тут: https://www.linux.org.ru/help/markdown.md

maxcom ★★★★★
(26.12.21 00:07:39 MSK)

Сам не пробовал но как-то увидел и помню, что есть несколько протухшый https://bitbucket.org/cryanfuse/crgrep/ на Java. Оно даже распознавать текст с изображений умеет.

xaizek ★★★★★
(26.12.21 00:08:12 MSK)

Ссылка

Сам не пользовался, но много раз видел, что хвалят эту штуку: https://github.com/phiresky/ripgrep-all

(то есть, самим ripgrep пользуюсь постоянно, именно ripgrep-all не пользовался).

~~emorozov~~ ☆
(26.12.21 00:12:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.12.21 23:43:33 MSK

Потому что, это не говноплощадка, где ты хоть убейся, поставил три минуса, как привык в латехе, нет, будут три минуса, не тире.

Код надо выделять. А ещё можно экранировать символы. ---

~~fernandos~~ ★★★
(26.12.21 00:21:46 MSK)

Ссылка

Ответ на: комментарий от maxcom 26.12.21 00:07:39 MSK

Это не экранирование, а кодблоки, что на самом деле просто дословное или полудословное отображение.

~~fernandos~~ ★★★
(26.12.21 00:26:04 MSK)

Ссылка

Люди, а чем вы грепаете *.docx файлы?

Я не пью метиловый спирт, не засовываю в анус кактус, и уж, конечно, не грепаю docx-файлы. Ну нет у меня любви к BDSM.

gremlin_the_red ★★★★★
(26.12.21 00:30:55 MSK)

Ответ на: комментарий от praseodim 25.12.21 23:49:24 MSK

Там есть command line утилита которая достает текст из чего угодно. Дальше уже можно использовать обычный grep.

maxcom ★★★★★
(26.12.21 00:39:56 MSK)

Ссылка

Ответ на: комментарий от praseodim 25.12.21 23:31:28 MSK

Мне нужно несколько тысяч файлов просмотреть

А может Solr?

thesis ★★★★★
(26.12.21 00:50:11 MSK)

Ссылка

я как бывший виндузятник, использую DocFetcher с гуем, он жует в том числе .docx

BLOBster ★★★
(26.12.21 01:11:48 MSK)

Ссылка

Ответ на: комментарий от praseodim 25.12.21 22:56:01 MSK

Тогда это называется «выше», а не «старше».

anonymous
(26.12.21 05:04:25 MSK)

Ссылка

Ответ на: комментарий от gremlin_the_red 26.12.21 00:30:55 MSK

А почему, собственно? Это текстовые документы, которых может быть огромное кол-во, и разумеется они нуждаются в полнотекстовом поиске. Весьма странно, что вы считаете это извращением, вполне практическая задача для каких-нибудь организаций. Удивительно, что стандартных инструментов для этого нет.

~~Im_not_a_robot~~ ★★★★★
(26.12.21 09:40:22 MSK)

Ссылка

apt install recoll antiword wv

anonymous
(26.12.21 09:42:04 MSK)

Ссылка

Посоветовал бы конвертнуть в нормальный формат, но, поскольку в DOC всё равно ничего ценного быть не может, проще удалить этот мусор.

anonymous
(26.12.21 10:40:59 MSK)

Ссылка

Все гениальное просто!

В .bashrc прописать функцию docx_search:

docx_search(){ local arg wordfile terms=() root=${root:-/}; for arg; do terms+=(-e "$arg"); done; find 2>/dev/null "${root%/}/" -iname '*.docx' -exec bash -c "$(declare -p terms)"'; for arg; do unzip -p "$arg" 2>/dev/null | grep --quiet --ignore-case --fixed-strings "${terms[@]}" && printf %s\\n "$arg"; done' _ {} +; }

И далее можно «грепать» в текущей директории:

docx_search "Шерше ля фам"

Или с указанием где искать:

root=/home/fedor docx_search "будет ли мир спасен красотой"

beka ★
(26.12.21 11:07:51 MSK)

Ответ на: комментарий от beka 26.12.21 11:07:51 MSK

И что оно найдет? Конкретный текст или текст с xml-мусором?

~~Im_not_a_robot~~ ★★★★★
(26.12.21 11:14:32 MSK)

Ссылка

Ответ на: комментарий от beka 26.12.21 11:07:51 MSK

file=/path/to/file.docx
unzip -p "$file" | grep -q 'template' && echo "$file"

вот и весь поиск, grep’ом как просил ТС

futurama ★★★★★
(26.12.21 11:30:16 MSK)

Ссылка

Люди, а чем вы грепаете *.docx файлы?

Секретаршей. За неимением — бухгалтершей.

mord0d ★★★★★
(26.12.21 18:09:28 MSK)

Ссылка

$ cat `which antidocx`
#!/usr/bin/bash

if [[ $# < 1 ]]; then
    echo "Usage: antidocx <file.docx>"
    echo "Outputs to stdout."
    exit 1
fi

7z x -so "$1" word/document.xml | sed -r 's/<\/w:p>/\n/g; s/<[^>]*>//g'

anonymous
(27.12.21 10:44:01 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Какой оптимальный дистрибутив для планшета с 2гб ОЗУ?

Desktop

Хочу собрать свой собственный «дистрибутив» на основе Gentoo →

Похожие темы