[python] Строки и мистика

0

0

Доброго времени суток.

В общем, столкнулся я со следующей проблемой. А именно есть две строки: str1 и str2 (первая строка получается из инета, а именно с помощью библиотеки twisted, вторая задана в коде), если я их вывожу путем print То выводятся две абсолютно одинаковые строки(как и должно быть), но если я их пытаюсь сравнить, то получаю false. Пробовал через string.find(str1,str2) получаю -1. Но строки то одинаковые! Почему может случаться такая фигня?

Ссылка

← Стили - заменить текст другим текстом

Подскажите сервис →

Python 2.6.4 (r264:75706, Jun  4 2010, 18:20:16)
[GCC 4.4.4 20100503 (Red Hat 4.4.4-2)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> str1="Hello"
>>> str2="Hello"
>>> str1==str2
True

~~Donnie_Darko~~
(01.03.11 14:55:54 MSK)

Ссылка

возможно у тебя не совпадает регистр строк.

~~Donnie_Darko~~
(01.03.11 14:57:02 MSK)

Перенаправляем вывод в файл и смотрим в hex редакторе.

Olegymous ★★★
(01.03.11 14:59:40 MSK)

Ссылка

Ответ на: комментарий от Donnie_Darko 01.03.11 14:57:02 MSK

Уточнил условие задачи.

Регистр совпадает, говорю же если их вывести путем print они выглядят одинаково.

Вот участок кода:

        str1 = command[0]
        str2 = "test"
        print str1
        print str2
        
        print( str1 == str2 )

А вот вывод который он генерит:

test
test
False

Daeloce ★
(01.03.11 15:01:29 MSK) автор топика

Длины строк распечатай

tailgunner ★★★★★
(01.03.11 15:02:31 MSK)

Ссылка

Ответ на: комментарий от Daeloce 01.03.11 15:01:29 MSK

str1 = command[0]
str2 = "test"
print str1
print str2

print len(str1)        
print len(str2)

что говорит?

~~Donnie_Darko~~
(01.03.11 15:02:57 MSK)

Ссылка

Ответ на: комментарий от Daeloce 01.03.11 15:01:29 MSK

Может там пробелы, специальные символы и прочая хрень? Выводи посимвольно :]

vasily_pupkin ★★★★★
(01.03.11 15:03:40 MSK)

Ссылка

Если строки одинаково выглядят, это не значит, что они равны.

>>> s1 = '123\x00'
>>> s2 = '123'
>>> print s1, '\n', s2, '\n',  s1==s2
123 
123 
False

tanenn
(01.03.11 15:04:26 MSK)

Ссылка

>>> toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x])
>>> toHex(s1)
'31323300'
>>> toHex(s2)
'313233'

tanenn
(01.03.11 15:07:28 MSK)

Так.. Вывод строк в файл и просмотр hex редактором выявила что у первой строки двухбайтовая кодировка(0x0074 0x0065 0x0073 0x0074)

Python знаю плохо, как раз разбираюсь с ним, поэтому не подскажете как их привести к одной кодировке? :)

Daeloce ★
(01.03.11 15:15:20 MSK) автор топика

Ответ на: комментарий от Daeloce 01.03.11 15:15:20 MSK

На юникод похоже. Попробуй что-то типа s.encode('utf-8'). Либо всё к юникоду приводи, что лучше. s=unicode(s,'utf-8')

tanenn
(01.03.11 15:23:47 MSK)

из twisted тебе пришел unicode скорее всего

real_maverick ★★★
(01.03.11 17:02:59 MSK)

Ответ на: комментарий от tanenn 01.03.11 15:07:28 MSK

А зачем в выражении

 toHex = lambda x:"".join([hex(ord(c))[2:].zfill(2) for c in x])

написано ".zfill(2)"? С ним или без него - разницы нет вроде.

Sergey_MSU
(01.03.11 17:31:08 MSK)

Ответ на: комментарий от Sergey_MSU 01.03.11 17:31:08 MSK

Разницы нет для хекс кодов больше равно 10. для кодов от 0 до F идет дополнение ведущим нулем.

tanenn
(01.03.11 17:53:56 MSK)

Ссылка

Ответ на: комментарий от Sergey_MSU 01.03.11 17:31:08 MSK

формально, для печатных символов этот кусок кода можно убрать. Но если в строке будет непечатные символы типа «\x01», то они отобразятся примерно так «1», а не «01».

tanenn
(01.03.11 17:55:25 MSK)

Ссылка

Ответ на: комментарий от tanenn 01.03.11 15:23:47 MSK

Не получается... Оба варианта попробовал, как будто вообще ничего не происходит от этих команд...

Daeloce ★
(01.03.11 18:06:00 MSK) автор топика

Ссылка

Ответ на: комментарий от real_maverick 01.03.11 17:02:59 MSK

Это я уже понял! Осталось понять как две эти строки к одной кодировке привести...

Daeloce ★
(01.03.11 18:26:59 MSK) автор топика

Ответ на: комментарий от Daeloce 01.03.11 18:26:59 MSK

s_unicode.encode(«CP1251»)
unicode(s_windows,«CP1251»)
и т.п.

pacify ★★★★★
(01.03.11 18:58:45 MSK)

Ссылка

Проблему решил! Оказалось там не двухбайтовая кодировка, а однобайтовая, но при этом после каждого полезного символа стоит '\x00' после удаления данного мусора все заработало. Всем спасибо.

Daeloce ★
(01.03.11 19:48:26 MSK) автор топика

Ответ на: комментарий от Daeloce 01.03.11 19:48:26 MSK

> Проблему решил! Оказалось там не двухбайтовая кодировка, а однобайтовая, но при этом после каждого полезного символа стоит '\x00' после удаления данного мусора все заработало. Всем спасибо.

Да, а теперь задумайтесь еще раз над написанным.

shylent ★
(01.03.11 20:54:35 MSK)

Ссылка

Ответ на: комментарий от real_maverick 01.03.11 17:02:59 MSK

латиница в utf8 однобайтовая. Матчасть.

tensai_cirno ★★★★★
(01.03.11 21:50:52 MSK)

Ссылка

Ответ на: комментарий от Daeloce 01.03.11 19:48:26 MSK

>Проблему решил! Оказалось там не двухбайтовая кодировка, а однобайтовая, но при этом после каждого полезного символа стоит '\x00' после удаления данного мусора все заработало.
OMHFG!

anonymous
(02.03.11 12:23:15 MSK)

Ссылка

Ответ на: комментарий от Daeloce 01.03.11 19:48:26 MSK

> Оказалось там не двухбайтовая кодировка, а однобайтовая, но при этом после каждого полезного символа стоит '\x00' после удаления данного мусора все заработало.

спасибо за хорошее настроение с утра

~~aho~~
(02.03.11 12:30:14 MSK)

Ответ на: комментарий от aho 02.03.11 12:30:14 MSK

любой ананимус подтвердит что utf-8 это мусор :D

anonymous
(03.03.11 04:34:20 MSK)

Ответ на: комментарий от anonymous 03.03.11 04:34:20 MSK

>любой ананимус подтвердит что utf-8 это мусор :D
UTF-16, тупой анон.

anonymous
(03.03.11 06:51:11 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Стили - заменить текст другим текстом

Development

Подскажите сервис →