Доступ по индексу после парсинга с re дает результат, отличающийся от запроса

0

1

import urllib.request
import re


url = 'http://www.vk.com'

request = urllib.request.urlopen(url)
response = request.read()
parse = re.search(r'android', str(response))  

print(parse)
print(response[parse.start():parse.end()])
_________
Output:

<_sre.SRE_Match object; span=(3138, 3145), match='android'>
b'wrap"><'

Ссылка

← HeaderBar в QT.

Научите писать ошибки python скрипта в лог →

С кодировками у тебя проблема, а не в доступе по индексу.

b" - это не строка, это последовательность байт. А парсишь ты строку.

E ★★★
(26.12.15 18:03:04 MSK)

Ответ на: комментарий от E 26.12.15 18:03:04 MSK

Ясно, спасибо. Кстати, не пойму, почему b' не убирается при изменении на str, ведь это уже не байт-тип?

url = 'http://www.vk.com'

request = urllib.request.urlopen(url)
response = request.read()
parse = re.search(r'xml', str(response))  

response_str = str(response)

print(parse)
print(response_str[parse.start()-4:parse.end()])
___
<_sre.SRE_Match object; span=(4, 7), match='xml'>
b'<?xml

kramh
(26.12.15 18:24:56 MSK) автор топика

Ответ на: комментарий от kramh 26.12.15 18:24:56 MSK

Потому что байты надо декодить, а не приводить к строке. Типа того:

b'some bytes'.decode('utf-8')

gejzenbug
(26.12.15 18:31:08 MSK)

Ответ на: комментарий от gejzenbug 26.12.15 18:31:08 MSK

Что-то я совсем запутался. Перевод к строке это и есть декод, разве нет? Вот, например комментарий на тему:

Ошибка в кодировке Python3. Фикс вызывает новую ошибку. (комментарий)

Да и я исправил на str, и скрипт начал работать исправно.

kramh
(26.12.15 18:43:10 MSK) автор топика

Ответ на: комментарий от kramh 26.12.15 18:43:10 MSK

В твоём случае str() сработал потому, что байты в юникоде, питон по умолчанию перекодирует в строку из юникода. Если была бы другая кодировка, твой код вывалился бы с исключением и ты бы узнал о том, зачем нужно явное перекодирование.

E ★★★
(26.12.15 19:10:31 MSK)

Ответ на: комментарий от E 26.12.15 19:10:31 MSK

Я, кажется, понял. То есть b' убирается только во время decode(т.е. когда выбираешь кодировку), а т.к. я её не выбрал во время использования str, то питон автоматически из строки байтов декодировал в текстовую строку, но оставил в той же кодировке(это точно не юникод - проверял), и поэтому остается b', хотя тип уже не байтовый у нас. Верно?

kramh
(26.12.15 19:21:33 MSK) автор топика

Ответ на: комментарий от E 26.12.15 19:10:31 MSK

Например, так не выбрал: mystr = str(mybytes, 'KOI8-R')

Также по Лутцу всего 2 типа строк: байтовые и текстовые.

kramh
(26.12.15 19:27:11 MSK) автор топика

Ссылка

Ответ на: комментарий от kramh 26.12.15 19:21:33 MSK

Нет, неверно. Тип не байтовый, тип - строка, но он содержит строковое представление байтовой последовательности, включая символы b". Потому что ты не указал кодировку.

Если бы ты пользовался decode или вторым параметром в str, то у тебя байтовая последовательность посимвольно бы сконвертировалась, и получилась бы полноценная декодированная строка, а не строковое представление байтов.

>>>a = b'123'
>>>str(a)
"b'123'"
>>>a.decode('utf-8')
'123'

E ★★★
(26.12.15 20:39:56 MSK)

Ответ на: комментарий от E 26.12.15 20:39:56 MSK

Неожиданное, кстати, поведение:

>>> repr(b'123')
"b'123'"
>>> str(b'123')
"b'123'"
>>> str(b'123', 'cp1251')
'123'

Первая и последняя строчки весьма осмысленны, а вот средняя лучше бы вообще не работала.

anonymous
(27.12.15 04:36:21 MSK)

Ответ на: комментарий от anonymous 27.12.15 04:36:21 MSK

Ты как будто питон первый раз увидел. Давно пора привыкнуть.

E ★★★
(27.12.15 10:19:15 MSK)

Ответ на: комментарий от E 27.12.15 10:19:15 MSK

Я привык, что в python2 подобного нет.

>>> str(bytearray('123'))
'123'

anonymous
(27.12.15 15:42:44 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← HeaderBar в QT.

Development

Научите писать ошибки python скрипта в лог →

Похожие темы