Впервые понадобилось извлечь текст из файлов .docx.
К моему удивлению catdoc не сработал и нормальных аналогов поддерживающих .docx я не нашёл.
Поэтому, набросал маленький скрипт:
---catxdoc
#!/bin/bash
unzip -p «$1» word/document.xml | sed 's/<[a-zA-Z0-9:/«=-?. ]*>//g'
---
В stdout текст в UTF-8 в одну строку.
Чтобы было много строк шириной не более 80 символов и в koi8-r я использую так:
catxdoc file.docx | iconv -c -f utf-8 -t koi8-r | fold -s -w 80 | less
Ответ на:
комментарий
от AITap
Ответ на:
комментарий
от saahriktu
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Исправление отображения символа списка в man'ах в системе с локалью KOI8-R (2005)
- Форум Перекодирование тегов id3 из cp1251 в юникод (плохой путь) (2020)
- Форум docx (2008)
- Форум открыть docx (2011)
- Форум Pdf/Docx/Xlsx (2019)
- Форум Формулы в docx (2008)
- Форум конвертер из docx (2009)
- Форум C++ docx extract text (2015)
- Форум Просмотрщик .doc/.docx/.odt (2013)
- Форум docx в OO2 - как? (2007)