Парсинг xml на Python3.5 с помощью bs4 [проблемы с кодировкой]

1

1

Нужно, распарсить xml в питоне, но назло мне появились проблемы с кодировкой.

Сначала сделал запрос к API (тут все норм)

import requests
#Переменные с параметрами для запроса
game = 'insurg'
count = '100'
gameme_page = 'http://stats.whiskey-server.ru'
#Сам запрос
req = gameme_page + '/api/playerlist/' + game + '?limit=' + count
r = requests.get(req)
print(r.encoding)
resp = r.text.encode('utf-8')
print(resp)

Но вот как дело дошло до парсинга тут появились проблемы

Вот такой код, выдает ошибку кодировки UnicodeEncodeError: 'ascii' codec can't encode character

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup

game = 'insurg'
count = '100'
gameme_page = 'http://stats.whiskey-server.ru'
req = gameme_page + '/api/playerlist/' + game + '?limit=' + count
r = requests.get(req)
resp = r.text.encode("utf-8")
soup = BeautifulSoup(resp, 'xml')
print (soup.prettify())

Подставил .encode(«utf-8») к prettify

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup

game = 'insurg'
count = '100'
gameme_page = 'http://stats.whiskey-server.ru'
req = gameme_page + '/api/playerlist/' + game + '?limit=' + count
r = requests.get(req)
resp = r.text
soup = BeautifulSoup(resp, 'xml')
print (soup.prettify().encode("utf-8"))

и вроде бы все заработало, но теперь во всех строчках появились \n

'<?xml version=«1.0» encoding=«utf-8»?>\n<gameME>\n <vendor>\n <label>\n gameME\n </label>\n <webpage>\n ......

Объясните пожалуйста как распарсить все это по-человечески.

P.s Если что, для доступа к GameME API никаких токенов не нужно, так что у вас вполне получится опробовать код самим

Ссылка

← WebAssembly. Как понимать «переносимое абстрактное синтаксическое дерево»?

Как применять абстрактные правила к атрибутам на Скиматроне? →

Кстати, немного оффтопика. А Питон-то вообще умеет парсить (не самому писать регулярки, а адекватно) xml стандартными средствами ? Вот csv и json умеет. Я серьезно не помню чем, но прежде чем идти в гугл тут напишу. даже java (которая для парсинга и автоматизации в целом подходит сильно меньше ИМХО(!)) вродебы (тут я не уверен, ибо не джавист, а только сталкиваюсь по долгу службы) имеет встроеный SAXParser

По сабжу. Имеет смысл попробовать chardet.

Dred ★★★★★
(16.08.16 17:50:15 MSK)

Ответ на: комментарий от Dred 16.08.16 17:50:15 MSK

Да умеет https://docs.python.org/3/library/xml.html там даже несколько разных модулей по вкусу

pawnhearts ★★★★★
(16.08.16 17:53:01 MSK)

Ссылка

В r.text уже содержится текст для которого requests угадал кодировку. Чистый байтовый ответ находится в r.content.

А для парсинга xml рекомендую lxml.

PolarFox ★★★★★
(16.08.16 17:53:41 MSK)

Ответ на: комментарий от PolarFox 16.08.16 17:53:41 MSK

А с lxml не будет такой же петрушки с кодировками?

Hinex
(16.08.16 18:25:31 MSK) автор топика

Ответ на: комментарий от PolarFox 16.08.16 17:53:41 MSK

да

anonymous
(16.08.16 18:57:06 MSK)

Ссылка

Ответ на: комментарий от Hinex 16.08.16 18:25:31 MSK

будет

anonymous
(16.08.16 18:58:02 MSK)

Ссылка

Xubuntu (с LXDE) 16.04. 
Python 3.5.2 
requests 2.9.1
bs4 4.4.1

Ошибки UnicodeEncodeError: 'ascii' codec can't encode character нет.

iljuase ★★★
(16.08.16 19:57:38 MSK)

У тебя не Винда случайно?

iljuase ★★★
(16.08.16 20:00:09 MSK)

Ответ на: комментарий от iljuase 16.08.16 20:00:09 MSK

Ubuntu 14.04.5 LTS Python 3.5.2 requests 2.10.0 beautifulsoup4 4.5.1

Hinex
(16.08.16 20:16:07 MSK) автор топика

Ответ на: комментарий от iljuase 16.08.16 19:57:38 MSK

Там на самом деле есть зависимость от того, в какой кодировке (внезапно) емулятор терминала работает (на с таким я только на винде сталкивался), кодировка скрипта (хотя это маразм и редкость) и кодировка которая указана в заголовке скрипта

Dred ★★★★★
(16.08.16 20:23:43 MSK)

Ссылка

Ответ на: комментарий от Hinex 16.08.16 20:16:07 MSK

Дай вывод команды echo $LANG

iljuase ★★★
(16.08.16 20:27:48 MSK)

Ответ на: комментарий от iljuase 16.08.16 20:27:48 MSK

ничего не выводит

Hinex
(16.08.16 20:28:56 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 20:28:56 MSK

Очень странно.

Попробуй написать LANG=en_US.UTF-8 и запустить скрипт.

iljuase ★★★
(16.08.16 20:35:11 MSK)

Ответ на: комментарий от iljuase 16.08.16 20:35:11 MSK

  File "test.py", line 12, in <module>
    print (soup.prettify())
UnicodeEncodeError: 'ascii' codec can't encode character '\xa9' in position 228: ordinal not in range(128)

Hinex
(16.08.16 20:44:58 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 20:44:58 MSK

попробуй в файл вывод писать

Dred ★★★★★
(16.08.16 20:49:18 MSK)

Ответ на: комментарий от Dred 16.08.16 20:49:18 MSK

Записывает как есть без перевода строк, оставляя \n

Hinex
(16.08.16 20:52:57 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 20:44:58 MSK

А шрифт ты не менял в консоли? Поставь Monospace. И попробуй запустить в другом эмуляторе терминала.

Просто такая ошибка у меня возникала на Windows и фиксилась она заменой шрифтов в консоли.

iljuase ★★★
(16.08.16 21:04:50 MSK)

Ответ на: комментарий от Hinex 16.08.16 20:52:57 MSK

оставляя \n

было нормальное решение, но я его, конечно, не помню. Но можно попробовать что-то вроде .encode().decode('unicode_escape')

Dred ★★★★★
(16.08.16 21:08:08 MSK)

Ссылка

Ответ на: комментарий от iljuase 16.08.16 21:04:50 MSK

У меня виртуалка, подрубаюсь через ssh.

Не делаю на винде, так как ней поставить нужный пакет целое приключение (какие-то траблы с компиляцией, получается только когда есть .whl)

Сейчас пробую, ранее мне посоветованный r.content + lxml, вроде бы получается

Hinex
(16.08.16 21:14:10 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 21:14:10 MSK

lxml

разве BS и так его не использует ?

У меня никаких ошибок. Чини окружение. А заодно покажи как в файл писал. Переносы на месте.

Dred ★★★★★
(16.08.16 21:21:55 MSK)
Последнее исправление: Dred 16.08.16 21:24:39 MSK (всего исправлений: 1)

Ответ на: комментарий от Hinex 16.08.16 21:14:10 MSK

вот и ответ. Виндовая консоль не отображает некоторые символы по дефолту. Нужно менять шрифт.

iljuase ★★★
(16.08.16 21:32:02 MSK)

Ответ на: комментарий от Dred 16.08.16 21:21:55 MSK

Я не знаю как вывод в файл с переносами по строчкам, учитывая то, что он дается одной строкой

Hinex
(16.08.16 22:06:52 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 22:06:52 MSK

Так же как и любой другой ?

with open('l.xml', 'w') as f:
    f.write(soup.prettify())

Dred ★★★★★
(16.08.16 22:08:13 MSK)

Ответ на: комментарий от iljuase 16.08.16 21:32:02 MSK

Какой шрифт я через Putty сижу, объясни, не понимаю

Hinex
(16.08.16 22:08:30 MSK) автор топика

Ответ на: комментарий от Dred 16.08.16 22:08:13 MSK

Без .encode выдает ошибку кодировки

С .encode('utf-8')

TypeError: write() argument must be str, not bytes

Hinex
(16.08.16 22:11:07 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 22:11:07 MSK

.encode('utf-8')

откуда это вообще ? Ну если так охота в байтах писать - то надо 'wb' ставить. вместо 'w'

говорю же, чини окружение. У меня этих ошибок нет. Запрос из ОП-поста взял Кстати, эта хрень чаще всего появляется у меня в оффтопике из-за дибильной cp866

Dred ★★★★★
(16.08.16 22:15:15 MSK)

Ответ на: комментарий от Dred 16.08.16 22:15:15 MSK

Блин я ничего не понимаю в этих ваших линуксах, просто поставил vps ubuntu minimal, что там можно в окружение чинить T_T

Hinex
(16.08.16 22:17:27 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 22:11:07 MSK

Файл открой в режиме 'wb'.

anonymous
(16.08.16 22:21:19 MSK)

Ссылка

Ответ на: комментарий от Hinex 16.08.16 22:17:27 MSK

линуксах

тебе тут народ прямым текстом вещает - в (этих наших) линуксах все работает. Проблема (скорее всего) в терминале винды.

Кодировку не utf-8 пробуй, а cp866(или windows-866). На крайняк cp1251, но это уж врятли.

Dred ★★★★★
(16.08.16 22:22:01 MSK)

Ответ на: комментарий от Hinex 16.08.16 22:08:30 MSK

https://youtu.be/Odx2pJZac-I http://serverfault.com/questions/52068/is-there-a-way-to-permanently-set-the-...

Поэкспериментируй с разными шрифтами, я уже не помню шрифт, с которым нет проблем.

iljuase ★★★
(16.08.16 22:25:49 MSK)

Ссылка

Ответ на: комментарий от Hinex 16.08.16 22:17:27 MSK

Ещё нужно шрифты поменять и в консоли Windows написать Chcp 65001. Ну может Chcp 65001 не обязательно, но я писал.

Только я не знаю, как это в Putty сделать. Или в настройках Putty поковыряйся, может там есть опция для смены кодировки консоли. Нужно utf8.

iljuase ★★★
(16.08.16 22:32:29 MSK)

Ссылка

Ответ на: комментарий от Dred 16.08.16 22:22:01 MSK

Вот этот код записывает нормальный xml, теперь осталось понять как вытащить из него нужные элементы

# -*- coding: cp866 -*-
import requests
from bs4 import BeautifulSoup
from lxml import etree

game = 'insurg'
count = '100'
gameme_page = 'http://stats.whiskey-server.ru'
req = gameme_page + '/api/playerlist/' + game + '?limit=' + count
r = requests.get(req)
resp = r.text
soup = BeautifulSoup(resp, 'xml')
with open('l.xml', 'wb') as f:
    f.write(soup.prettify().encode('utf-8'))
tree = etree.parse('l.xml') # Парсинг файла
playerlist = tree.xpath('/gameME/playerlist/player')
for player in playerlist: # Перебираем элементы
    print (player.tag, player.keys(), player.values())

Вывод (что-то он мне не нравится):

player [] []
player [] []
player [] []
player [] []
player [] []
player [] []
player [] []
player [] []
player [] []

Hinex
(16.08.16 22:44:46 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 22:44:46 MSK

Так, иди уже доки читай. Тут уж совсем как-то.

Во-первых, ты определись чем парсить будешь, BS-ом или чистым lxml. Если решил что lxml-ом, то зачем в BS файл скармливать и тд. Во-вторых, нахрена писать файл, потом открывать и парсить его ? В-третьих, у ТЕГа в xml есть «дети», а есть «параметры». Если ты по xpath достал ТЕГ, это не значит что все его «дети» сложил в милый словарик. Они тоже ТЕГи и их надо парсить, просто делать это сильно легче (А если доки открыть, так можно тонну методов для этого найти, один только getchildren, возвращающий всех детей чего стоит). А эти ключи и значения, которые ты так пытаешься просмотреть нужны для праметров xml-тегов, который рядом с именем ТЕГа обычно пишутся.

Dred ★★★★★
(16.08.16 23:10:28 MSK)

Ответ на: комментарий от Dred 16.08.16 23:10:28 MSK

От записи в файл и bs4 избавился

Еле еле разобравшись с доками (мог бы и решения подкинуть,но все равно спасибо за наставление на путь верный) все таки получилось то чего я хотел http://prntscr.com/c6l257 .

Плюс тебе в карму за помощь чайнику и конечно же большое спасибо :)

Hinex
(16.08.16 23:58:23 MSK) автор топика

Ответ на: комментарий от Hinex 16.08.16 23:58:23 MSK

Скинь код, пожалуйста, хочу посмотреть.

iljuase ★★★
(17.08.16 00:02:14 MSK)

Ответ на: комментарий от iljuase 17.08.16 00:02:14 MSK

Может и говнокод, но работает и ладно

# -*- coding: cp866 -*-
import requests
from lxml import etree
game = 'insurg'
count = '100'
steam_ids = []
gameme_page = 'http://stats.whiskey-server.ru'
req = gameme_page + '/api/playerlist/' + game + '?limit=' + count
r = requests.get(req)
resp = r.text.encode('utf-8')
tree = etree.XML(resp)
playerlist = tree.xpath('/gameME/playerlist/player')
for player in playerlist:
    print (player.find('rank').text + ' ---- ' + player.find('uniqueid').text)
    steam_ids.append(player.find('uniqueid').text)
#Дальше steam_ids в файлик, но я еще не написал

Hinex
(17.08.16 00:06:57 MSK) автор топика