Впервые понадобилось извлечь текст из файлов .docx.
К моему удивлению catdoc не сработал и нормальных аналогов поддерживающих .docx я не нашёл.
Поэтому, набросал маленький скрипт:
---catxdoc
#!/bin/bash
unzip -p «$1» word/document.xml | sed 's/<[a-zA-Z0-9:/«=-?. ]*>//g'
---
В stdout текст в UTF-8 в одну строку.
Чтобы было много строк шириной не более 80 символов и в koi8-r я использую так:
catxdoc file.docx | iconv -c -f utf-8 -t koi8-r | fold -s -w 80 | less