А как bison + lex реагируют на utf-8?

0

1

Прошу заранее извинений, плохо читал про них, даже незнаю как их юзать и чем они отличаются. Просто реализовал HTML-парсер руками на C++ и надо ещё javascript парсить. Но не для того, чтобы его интерпретировать, а чтобы перешагнуть внутри HTML-документа.

Думаю - не попробовать ли переписать и HTML-парсер и javascript-парсер на bison + lex, чтобы «как у людей». Плюс ручной парсер не поддерживает utf-8 и потенциально запнётся и упадёт на каких-нибудь прикольных последовательностях - думаю как дело у bison + lex с этим?

HTML-документ у меня превращается в однонаправленный список структур, каждая из которых описывает HTML-тег (имя тега + список атрибутов, например «/A» + href=http://google.com, class=sobaka). Этот список структур я дальше употребляю в своих коварных целях.

Ссылка

← [git][страна дебилов] Репозиторий не мержится

Утилита для обяснения Си-обьявлений →

> я дальше употребляю вещеста

К.О.

archimag ★★★
(22.07.11 18:27:08 MSK)

Ответ на: комментарий от archimag 22.07.11 18:27:08 MSK

Сатира медицинская - боян волосатый.

kiverattes ★☆
(22.07.11 18:28:57 MSK) автор топика

Ссылка

На сколько я понимаю, utf-8 символы легко представляются в виде регулярок в восьмибитных кодировках вида <первый_байт><остальные>.

Саму спецификацию не помню, так что помоч написать правило не смогу.

SV0L0CH ★
(22.07.11 18:53:19 MSK)

Ответ на: комментарий от SV0L0CH 22.07.11 18:53:19 MSK

Да не, я регулярки юзать не хочу, поддержку utf-8 не сильно тяжело рукамии сделать на текущей базе кода.

kiverattes ★☆
(22.07.11 19:46:11 MSK) автор топика

> Просто реализовал HTML-парсер руками на C++ и надо ещё javascript парсить. Но не для того, чтобы его интерпретировать, а чтобы перешагнуть внутри HTML-документа.

Ладно, пропустим полную бредовость идеи писать руками HTML парсер...

ТС, javascript тебе не надо парсить. Тупо работаешь с ним как с обычным тестом в теге <script></script>, и всё.

~~geekless~~ ★★
(22.07.11 19:49:46 MSK)

Ответ на: комментарий от kiverattes 22.07.11 19:46:11 MSK

>Да не, я регулярки юзать не хочу, поддержку utf-8 не сильно тяжело рукамии сделать на текущей базе кода.

Как ты собрался использовать lex без регулярок?

SV0L0CH ★
(22.07.11 19:53:35 MSK)

Вроде как побайтово указывать коды символов в lex можно, так что нормально все работает.
Олсо, на stackoverflow все уже обсудили:
http://stackoverflow.com/questions/921648/how-to-make-a-flex-lexical-scanner-...

cattail ★
(22.07.11 21:31:25 MSK)

Ссылка

> надо ещё javascript парсить. Но не для того, чтобы его интерпретировать, а чтобы перешагнуть внутри HTML-документа.

тогда следует тег <script> пропускать, а обрабатывать <noscript>.

static_lab ★★★★★
(23.07.11 09:35:10 MSK)

Ссылка

Ответ на: комментарий от geekless 22.07.11 19:49:46 MSK

Работать с ним как с обычным текстом между тегами <script></script> не очень получается.

kiverattes ★☆
(23.07.11 13:20:53 MSK) автор топика

Ответ на: комментарий от SV0L0CH 22.07.11 19:53:35 MSK

Я вообще не собирался использовать lex, я только задавал о нём вопрос.

kiverattes ★☆
(23.07.11 13:21:24 MSK) автор топика

Ссылка

Ответ на: комментарий от geekless 22.07.11 19:49:46 MSK

Мне проще руками написать HTML-парсер, чем провести исследовательскую работу по поиску уже существующих парсеров, да ещё таких, которые на выходе дают именно те структуры данных, какие нужны мне - именно односвязанный список структур-тегов. Работа по поиску такого парсера + адаптации под мои нужды не сильно будет отличаться от разработки своей парсилки. Да в конце-концов работа уже сделана и думать в сослагательном наклонении тут уже ни к чему.

kiverattes ★☆
(23.07.11 13:24:07 MSK) автор топика

Ссылка

Ответ на: комментарий от kiverattes 23.07.11 13:20:53 MSK

> Работать с ним как с обычным текстом между тегами <script></script> не очень получается.

Почему это? В HTML текст, находящийся внутри <script></script>, является символьными данными, не имеющими внутренней разметки. Просто пропускай вси символы, пока не встретишь закрывающий </script>.

~~geekless~~ ★★
(23.07.11 13:36:43 MSK)

Ответ на: комментарий от geekless 23.07.11 13:36:43 MSK

Ну потому, что тег </script> может встретиться внутри JavaScript-кода, например являясь частью какой-нибудь там строки или комментария, мать их за ногу.

kiverattes ★☆
(23.07.11 13:50:04 MSK) автор топика

Ответ на: комментарий от kiverattes 23.07.11 13:50:04 MSK

> Ну потому, что тег </script> может встретиться внутри JavaScript-кода

Не может. Читай матчасть.

~~geekless~~ ★★
(23.07.11 13:51:15 MSK)

Ответ на: комментарий от geekless 23.07.11 13:51:15 MSK

Читай всё сообщение, а не его часть.

kiverattes ★☆
(23.07.11 14:00:56 MSK) автор топика

Ответ на: комментарий от kiverattes 23.07.11 14:00:56 MSK

Зачем сообщение-то удалил?

Может:

var str1 = «Hello world </script>, hahaha!»;

За то время, пока ты набирал это сообщение, ты мог проверить этот код в браузере и убедиться, что не может.

Error: unterminated string literal
Source File: file:///media/work/home/vadim/tmp/1.html
Line: 4, Column: 12
Source Code:
 var str1 = "Hello world

А теперь иди учи матчасть.

~~geekless~~ ★★
(23.07.11 14:02:20 MSK)

Ответ на: комментарий от geekless 23.07.11 14:02:20 MSK

Зачем учить матчасть, если ты всё объяснил, ты зря объяснял что-ли? Не считаешь своё объяснение достаточным? Тогда зачем объяснял? Чё, правда что-ли не может? Фигасе. Ну тогда ладно, буду думать.

kiverattes ★☆
(23.07.11 14:04:58 MSK) автор топика

Ответ на: комментарий от kiverattes 23.07.11 14:04:58 MSK

Ну хорошо, значит отдельный JavaScript-парсер не нужен, надо только поставить реакцию на встречу тега <script>.

kiverattes ★☆
(23.07.11 14:12:06 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [git][страна дебилов] Репозиторий не мержится

Development

Утилита для обяснения Си-обьявлений →

Похожие темы