LINUX.ORG.RU

История изменений

Исправление hobbit, (текущая версия) :

MS Word DOC

ведь это хорошо задокументированный, давно известный формат файла

Спасибо, сделал мой день.

Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.

Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.

Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.

(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли, и не уверен, что дойдут.)

P.S. Сайт Джоэла долгое время был в дауне, я уж думал, пропал окончательно. Нет, жив, курилка. :)

Исправление hobbit, :

MS Word DOC

ведь это хорошо задокументированный, давно известный формат файла

Спасибо, сделал мой день.

Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.

Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.

Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.

(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли.)

P.S. Сайт Джоэла долгое время был в дауне, я уж думал, пропал окончательно. Нет, жив, курилка. :)

Исходная версия hobbit, :

MS Word DOC

ведь это хорошо задокументированный, давно известный формат файла

Спасибо, сделал мой день.

Почитай статью Спольски (есть и русский перевод), там хорошо объясняется, откуда эти форматы пошли. В основном, про XLS, но идеология у них одна.

Учти, что Джоэл вообще-то очень лояльно относится к Microsoft, особенно Microsoft времён Гейтса, поэтому на «хейтерство» эту статью точно не спишешь.

Сказанное относится к DOC и XLS. Современные версии форматов, такие как DOCX, несколько проще, ибо построены на XML (хотя бреда хватает и там). Возможно, в твоём случае будет проще конвертнуть все эти файлы в DOCX и поискать парсер уже для него. Шансов больше.

(В своё время скакал по граблям с похожей задачей применительно к XLS. Для этого есть несколько независимых библиотек, но при работе с реальными файлами у них возникают проблемы. Задача отдебажить эти библиотеки до нормального уровня в моей голове до сих пор висит, но руки пока не дошли.)