Снова regex для таблицы

0

0

Как можно получить _все_ ячейки строки таблицы (содержимое всех <td></td> в строке)?

Я делаю вот так:

/<tr[^>]*>(<td[^>]*>(.*?)<\/td>)+<\/tr>/s 

Но получаю ячейки из тех строк, где только один элемент <td></td>, т.е. только строки такого вида:

<tr>
  <td>qewr qewr qwer</td>
</tr>

Где косяк?

Ссылка

←	search engine

изменение кол-ва полей формы с помощью яваскрипт

→

Задача обязательно подразумевает использование регулярных выражений?

~~Sphinx~~ ★★☆☆
(24.07.08 12:26:39 MSD)

Ответ на: комментарий от Sphinx 24.07.08 12:26:39 MSD

> Задача обязательно подразумевает использование регулярных выражений?

Да, задача такова:

"Скриптом войти в ящик на mail.ru и вытащить заголовки 
всех писем с помощью регулярных выражений."

В принципе, задачу уже решил (просто выбором нужных <td> </td>), 
но хотелось бы еще помечать "прочитанные/непрочитанные", а инфа об 
этом содержится только в <tr> в виде class="noread", т.е. так:

<tr class="noread">
  ...
  <td class="lettem">тема письма</td>
  <td class="letavt">автор письма</td>
  ...
</tr>

Ну и таких строк много.

it-partizan ★
(24.07.08 12:52:50 MSD) автор топика

Ссылка

Ответ на: комментарий от Sphinx 24.07.08 12:26:39 MSD

> Задача обязательно подразумевает использование регулярных выражений?

А какой вариант вы хотели предложить?

Использовать HTML-парсер?

it-partizan ★
(24.07.08 12:54:05 MSD) автор топика

Ссылка

На пыхе есть замечательная функция preg_match_all ;-)

r_asian ★☆☆
(24.07.08 12:57:24 MSD)

Ответ на: комментарий от r_asian 24.07.08 12:57:24 MSD

Да, я ее и использую. Вот так:

$pattern = '/<tr[^>]*>(<td[^>]*>(.*?)<\/td>)*<\/tr>/s';
preg_match_all($pattern, $file_contents, $matches);

Проблема в самом выражении. 
Я получаю только строки, в которых есть одна ячейка - <tr><td></td></tr>.

А нужно получить все ячейки (все <td></td>).

it-partizan ★
(24.07.08 13:00:50 MSD) автор топика

Ответ на: комментарий от it-partizan 24.07.08 13:00:50 MSD

Ну так правильно, ты так регексп написал, что пробелов между </td> и </tr> быть не может.

rab_boziy
(24.07.08 13:22:07 MSD)

Ссылка

Ответ на: комментарий от it-partizan 24.07.08 13:00:50 MSD

'/<td.*?>(.*?)<.*?\/td.*?>/i';

Вот так будет правильно. Выражение немного избыточно, но в html-коде чего только не пишут, так что не помешает.

r_asian ★☆☆
(24.07.08 13:27:54 MSD)

Some people, when confronted with a problem, think, "I known, I'll use 
regular expressions." Now they have two problems.
        -- Jamie Zawinski in comp.lang.emacs

;-)

php-coder ★★★★★
(24.07.08 14:37:42 MSD)

Ответ на: комментарий от it-partizan 24.07.08 13:00:50 MSD

Поставь что-ли /ism чтобы все как одну строчку пройти.
Вроде так php делается...

zJes ★★
(24.07.08 15:39:18 MSD)

Ссылка

> Где косяк?

в ДНК у составителя задания :) какбэ DOM придумали наверно для этих целей.

~~phasma~~ ★☆
(24.07.08 16:06:30 MSD)

Ответ на: комментарий от php-coder 24.07.08 14:37:42 MSD

> Some people, when confronted with a problem, think, "I known, I'll use > regular expressions." Now they have two problems. > -- Jamie Zawinski in comp.lang.emacs

Класс!)

Но не про меня, к сожалению. У меня задача в изучении этих самых регулярных выражений и выполнении тестового задания

it-partizan ★
(24.07.08 16:16:46 MSD) автор топика

Ссылка

Ответ на: комментарий от phasma 24.07.08 16:06:30 MSD

> в ДНК у составителя задания :) какбэ DOM придумали наверно для этих целей.

Да, ты прав. Сделал второй вариант с HTML-парсером, получилось приятнее и логичнее.

it-partizan ★
(24.07.08 16:18:28 MSD) автор топика

Ссылка

Ответ на: комментарий от r_asian 24.07.08 13:27:54 MSD

> '/<td.*?>(.*?)<.*?\/td.*?>/i';

> Вот так будет правильно. Выражение немного избыточно, но в html-коде чего только не пишут, так что не помешает.

Но оно не не выбирает еще и <tr>, а в TR указано class="noread", по которому я определяю, прочитано письмо или нет

it-partizan ★
(24.07.08 16:24:57 MSD) автор топика

Ответ на: комментарий от it-partizan 24.07.08 16:24:57 MSD

> Но оно не не выбирает еще и <tr>, а в TR указано class="noread", по которому я определяю, прочитано письмо или нет

вообще для этого есть POP3/IMAP ... ты в mail.ru чель хочешь пойти работать ?

~~phasma~~ ★☆
(24.07.08 17:04:26 MSD)

Ответ на: комментарий от phasma 24.07.08 17:04:26 MSD

> вообще для этого есть POP3/IMAP ... ты в mail.ru чель хочешь пойти работать ?

=))

Искренне благодарю за открытие америки на отдельно взятом форуме!

Нет, не в мейл.ру, но работу сменить собираюсь.

А решение подсказать может кто?

P.S. 2phasma - без обид!

it-partizan ★
(24.07.08 17:18:35 MSD) автор топика

Ссылка

мне кажется, правильнее всего (в данном контексте) сделать вот так:

my $r="... вся страница ...";

while ($r=~s/<tr>(.*?)<\/tr>//s) {
my $line=$1;
$line=~/(?:<td[^>]*>(.*?)<\/td>)+/;
my ($sender,$header,...)=($1,$2,$3,$4,...);
}

vahvarh ★★★
(24.07.08 18:49:01 MSD)

Ссылка

it-partizan, тебе уже сказали DOM в помощь. Оно как раз для таких целей. С экономишь себе кучу времени.

//stoting

anonymous
(25.07.08 02:15:55 MSD)

Ответ на: комментарий от anonymous 25.07.08 02:15:55 MSD

> it-partizan, тебе уже сказали DOM в помощь. Оно как раз для таких целей. С экономишь себе кучу времени.

Про ДОМ в курсе, сделал уже вариант и через ДОМ, гораздо приятнее.

Но задание надо выполнить используя _именно_ регулярные выражения. Так что никуда от них не деться.

Сейчас буду пробовать предложенные варианты, т.к. сегодня надо отправить результаты.

it-partizan ★
(25.07.08 09:27:07 MSD) автор топика

Ссылка

Итог:

Сделать одним выражением не получилось, сделал поэтапно - сначала выдираю нужную таблицу, потом получаю ее строки и в каждой из них ищу интересующие меня строки.

Всем участникам спасибо!

it-partizan ★
(25.07.08 17:43:11 MSD) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	search engine

Web-development

изменение кол-ва полей формы с помощью яваскрипт

→

Похожие темы