LINUX.ORG.RU

preg_match_all выражение


0

1

помогите вытащить значение:

$page = '<span class=«flc»> - <a href=«//webcache.googleusercontent.com/search?num=50&hl=ru&q=cache:ti2fQ-Ly5BsJ:http://rosinvest.com/page/idealnaja-upakovka+site:rosinvest.com/page&ct=c...

preg_match_all(»#<cite>([^<]+) - [0-9]+k - </cite>#uis",$page, $matches);

Или с UTF-8 нужно как то по особому обходится?


Не понятно чего вы хотите, может надо включить HTML код в тэг

...
? Какое значение надо вытащить? #<a[^>]*href="([^«]+)»#Duis ?

tyler19
()
Ответ на: комментарий от anonymous

Анонимус отжигает и даже прав.

ТС, не надо парсить HTML regexp'ами, от этого бородавки на руках вырастают.

Deleted
()
Ответ на: комментарий от Kalashnikov

По ссылке пишет какой то псих. Сколько себя помню всегда парсил regex'ом. Всё отлично работает. А чем надо то? Какими то XML библиотеками?

tyler19
()
Ответ на: комментарий от Deleted

По ссылке там бред, типа кто то разрушает что то там парся regexp'ом. Не вижу ничего плохого в regexp'е. В некоторых случаях он бывает удобнее любого парсера. Всё это занудство не по мне, надо использовать те инструменты которые удобнее в данной ситуации.

tyler19
()
Ответ на: комментарий от mau5

Зачем тут data-text=".*?". Ок, и, внезапно, пришел тег <td style=«» data-boolean=«true»>N/A</td>

Срочно перепиливай свой регексп, пока менеджер проекта багрепорты не начал пачками получать.

GateKeeper ★★
()
Ответ на: комментарий от tyler19

По ссылке человек правильно пишет, у тебя просто регэксп головного мозга :}

>В некоторых случаях он бывает удобнее любого парсера
>надо использовать те инструменты которые удобнее в данной ситуации

>в данной ситуации
>удобнее
>надо использовать

Так используй, удобно же :}

Deleted
()
Ответ на: комментарий от Deleted

Тэг выше приведённый действительно ядрёный и регэкспом его затруднительно распарсить. Однако такие тэги редкость. В случае если надо выдернуть пару значений типа <div id=«value1»>value1</div> нет смысла тянуть парсер как зависимость. Регексп есть изкаропки даже в пхп, а парсера там может и не быть, так что придётся объяснять заказчику как его устанавливать. Ну и если layout поменяют на страцах то перестанет работать скорей всего и парсер. Тэги data-text=«</div>» редко используются.

tyler19
()
Ответ на: комментарий от Deleted

ох вот оно что! а я думал, отчего у меня бородавка выросла! ну теперь всё ясно.. и прошла недавно, через пару лет после того как я перестал html-код регекспами парсить..

AndreyKl ★★★★★
()
Ответ на: комментарий от Deleted

но в оправдание скажу. если вы таки попытаетесь обычный код с кучи сайтов обработать тиди или другим говниди (я уж не говорю про xml библиотеки), то результатом будет фейл в случае если вам надо обработать большинство сайтов. и даже когда сайты отдают xml, через 5 на десятый попадается нерабочий xml-ник, так что даже xml я парсил таки регекспами в своё время. причём на си :)

AndreyKl ★★★★★
()
Ответ на: комментарий от AndreyKl

ну а там кто вас знает, может правда удобно.. лет 8 уже назад дело было.. я был молод и талантлив :)

AndreyKl ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.