Попросили состряпать мини-тулзу для быстрого фильтра и поиска нужной информации для областного пат.ан. отделения. Проблема в том, что исходная информация дается в формате Word (до 2003 версии) документов. Внутри - патан-протоколы. Выглядит это все на первый взгляд вполне поддающееся для парсинга (пронумерованный список с вариантами ответа), но при детальном рассмотрении вылезает одно но! А именно, некоторые варианты ответа есть «нужное подчеркнуть».
Отступлюсь. Хочу и начал писать на Java для обучения и быстроты реализации.
Так вот... для чтения этих документов начал использовать org.apache.poi. Но беглый взгляд по документации не заострил мое внимание на получении информации о свойствах текста (подчеркивание). Наверное, нужно еще раз вчитаться, но хочу спросить совета у бывалых.
Делал уже кто-нибудь подобное? Какие средства использовали? Как бы Вы поступили для реализации подобного? Что мне лучше предпринять для облегчения страданий при разборе текста?
ЗЫ. Пример.
5.Пол: мужской - 1, женский - 2, неизвестен - 3 (подчеркнуто «женский - 2»)
14.Семейное положение: состояла в зарегистрированном браке - 1, не состояла в зарегистрированном браке - 2, неизвестно – 3 (подчеркнуто «неизвестно - 3»)