Имеется файл HTML, где все не-ASCII символы заменены на последовательности вида "&#nnnnn;", например "て". (Для определённости — японский язык в UTF-8.) Существует ли быстрый способ заменить эти последовательности на соответствующие символы? Написать пару тысяч регулярных выражений для замены можно, но долго и громоздко. Открыть в браузере и скопировать в редактор можно, но неинтересно. Как ещё можно это сделать?
Заранее спасибо.
Ответ: recode умеет конвертировать такие последовательности в символы. В моём случае отсутствовали символы вроде & или <, поэтому оказалось достаточно команды:
cat Gackt-Redemption.html | recode html..utf-8



