Parsing xml website

1

1

Всем привет, нужна ваша помощь, есть сайт на котором в таком формате отображаются данные:

<Site Label="site1" latitude="null" longitude="null" region="null">
      <Value Label="Mb/sec">178.17</Value>
      <Value Label="Reqs/sec">66.49</Value>
      <Value Label="Miss Mb/sec">23.27</Value>
</Site>
<Site Label="site2" latitude="null" longitude="null" region="null">
     <Value Label="Mb/sec">152.97</Value>
     <Value Label="Reqs/sec">30.81</Value>
      <Value Label="Miss Mb/sec">1.02</Value>
</Site>

Как мне в linux вытянуть только значение, например «Mb/sec» для site2 (чтобы вернуло только - 152.97)

Буду очень благодарен

Ссылка

← zsh current command

Linux.BackDoor.Gates.5 – еще один троянец для Linux →

Вариантов масса, это же xml. Если исключительно средствами системы, то grep+curl.

Bfgeshka ★★★★★
(06.06.14 18:31:37 MSK)

Ответ на: комментарий от Bfgeshka 06.06.14 18:31:37 MSK

Как мне в linux

это ж гуру, сразу видно - ему средствами ведра.

~~mos~~ ★★☆☆☆
(06.06.14 18:34:24 MSK)

Ответ на: комментарий от mos 06.06.14 18:34:24 MSK

Будьте добры, скиньте какой то пример

maison999
(06.06.14 18:42:04 MSK) автор топика

Ссылка

http://lxml.de/xpathxslt.html#the-xpath-method

i-rinat ★★★★★
(06.06.14 19:00:29 MSK)

Ссылка

cat xml | grep -E -o '>.*</' | grep -E -o '[0-9\.]*' #все значения

cat xml | grep -E -o 'Label="Mb/sec">.*</' | grep -E -o '[0-9\.]*' #все Mb/sec

cat xml | grep -E -o 'Label="Mb/sec">.*</' | grep -E -o '[0-9\.]*' | head -2 | tail -1 #второй Mb/sec

Но это все при условии, что формат файла не меняется, иначе сломается.

Black_Roland ★★★★
(06.06.14 19:08:01 MSK)
Последнее исправление: Black_Roland 06.06.14 19:13:24 MSK (всего исправлений: 3)

Т.к. у тебя в тэгах питон стоит, можешь посмотреть еще pyquery - парсит html и предоставляет доступ к аттрибутам также как и jquery. Такой xml тоже должен схавать. Очень удобная либа.

pi11 ★★★★★
(06.06.14 19:13:09 MSK)

Ссылка

Ответ на: комментарий от Black_Roland 06.06.14 19:08:01 MSK

Ну и жесть.

xmlstarlet sel -t -v "/ROOT/Site[@Label='site2']/Value[@Label='Mb/sec']" -n test.xml
152.97

~~Dude~~ ★
(06.06.14 19:25:29 MSK)

Ответ на: комментарий от Dude 06.06.14 19:25:29 MSK

$ xmlstarlet
zsh: command not found: xmlstarlet

Black_Roland ★★★★
(06.06.14 19:30:24 MSK)

lxml, xpath. Просто погугли же.

NeverLoved ★★★★★
(06.06.14 19:35:14 MSK)

Ссылка

Ответ на: комментарий от Black_Roland 06.06.14 19:08:01 MSK

stop piping cats.

трэд прекрасен.

~~mos~~ ★★☆☆☆
(06.06.14 22:53:24 MSK)

Ответ на: комментарий от Black_Roland 06.06.14 19:08:01 MSK

| head -2 | tail -1 #второй Mb/sec

http://facepalm.jpg.to
У меня почему-то всегда припекает от этого вашего head | tail. Не учите, пожалуйста, людей плохому, head+tail читают ВЕСЬ файл и жиденько заваливают продакшен, когда кто-нибудь так на логах делает, например.

Тоже самое с помощью sed:

sed -n '/Mb\/sec/s/.*>\([0-9\.]*\)<.*/\1/;2{p;q}' *xml

Что здесь происходит:
Находим строчку Mb/sec (/ экранируется, т.к используется и как разделитель команд sed);
на ней производим замену жадным регулярным выражением (s - команда подстановки, substitute;/ - начало рег. выражения), в котором берем
.*> (начало строки до того, что нам надо)
\([0-9\.]*\) - любое количество символов от 0 до 9 или точка
Они взяты в экранированные скобки, чтобы поместить их в поле \1. Поле уникально для каждой строки.
<.* - остаток строки
/ - окончание регулярного выражения
Заменяем всю такую строку на поле номер 1
/ - окончание команды ; - разделитель команд
2{p;q} - печатаем второе совпадение и сразу выходим; напечатать все совпадения - просто p. Дальше в документашку и пользуйтесь на здоровье.

~~takino~~ ★★★★★
(07.06.14 01:14:02 MSK)
Последнее исправление: takino 07.06.14 01:15:25 MSK (всего исправлений: 2)

По сабжу:
Если будешь пробовать на питоне писать тарахтелку, используй сразу любой модуль, поддерживающий sax. С DOM потом можешь замучиться на достаточно крупных файлах.

~~takino~~ ★★★★★
(07.06.14 01:18:24 MSK)

Ответ на: комментарий от takino 07.06.14 01:18:24 MSK

Большое тебе спасибо, сейчас буду пробувать:)

maison999
(07.06.14 01:27:00 MSK) автор топика

Ссылка

Ответ на: комментарий от mos 06.06.14 22:53:24 MSK

stop piping cats.

там мог быть curl вместо cat, потому так

Black_Roland ★★★★
(07.06.14 08:15:50 MSK)

Ссылка

Ответ на: комментарий от takino 07.06.14 01:14:02 MSK

У меня почему-то всегда припекает от этого вашего head | tail. Не учите, пожалуйста, людей плохому, head+tail читают ВЕСЬ файл и жиденько заваливают продакшен, когда кто-нибудь так на логах делает, например.

У логов должная быть ротация. Да и вообще слабенький какой-то продакшн, если на логи не хватает памяти.
Весь поток читает tail. head не читает весь поток, и после head -2 останется только 2 строки, с которыми tail без проблем справится.

По sed'у согласен. Им я пользоваться не умею и поэтому нагрепал лишь бы работало :)

Black_Roland ★★★★
(07.06.14 10:22:49 MSK)

Ссылка

Ответ на: комментарий от takino 07.06.14 01:14:02 MSK

Ты единственный человек, который пояснил что значит каждая регулярка. Некоторые просто молчаливо кидают, а регулярки для человека, который не знает их, выглядят... ужасно и не понятно.

~~a1batross~~ ★★★★★
(07.06.14 10:57:01 MSK)

Ссылка

16 июля 2014 г.

Ответ на: комментарий от takino 07.06.14 01:14:02 MSK

Нужна помощь, разобрать большой xml

Привет. Есть такой файл xml: https://cloud.mail.ru/public/fe2a1137669d/ISC BIND 9 Statistics.xml Статистика сервера bind Нужно выдрать некоторые данные для графика cacti Превратить в такой вид: a:24562362 aaaa:2354235623 mx:2346346 и тд. Там имеются по 2 значения, входящие и исходящие, значения надо сложить и выдать уже как указано выше. Ковыряюсь с sed, но пока с трудом дается. Пока такое получилось: cat stats.xml | sed '/name=\«AAAA\»>/s/.*name=\«AAAA\»>\([0-9]*\)<.*/\1/;' >stats_out.xml Но выдает только одно последнее значение.

Olegr00t
(16.07.14 15:17:33 MSK)