Python и кодировки

1

2

Доброго времени суток, уважаемые! У меня вот такая проблема: есть кортеж содержащий примерно следующую информацию:

arr = ['cn=Иванова Василий И.,OU=Manage,DC=domain,DC=loc', ' cn=Петров Иван В.,OU=Manage,DC=domain,DC=loc', ' cn=Сидоров Григорий А.,OU=Manage,DC=domain,DC=loc']

Пытаюсь при помощи регулярно выражения вытянуть из него имена пользователей:

for username in arr:
    for x in re.findall(r'[А-Яа-яёЁ .]+', str(username[0])):
        print "%s" % x

В выводе получается, что некоторые символы отображаются квадратиками, например «Шш» и «Рр». Если просто вывести кортеж, без применения регулярного выражения, его содержимое отображается нормально.

Ссылка

← Инфраструктура приложения.

UDP Socket peek →

http://docs.python.org/2/howto/unicode.html

i-rinat ★★★★★
(17.10.13 11:38:19 MSK)

Ссылка

Что творишь, rtfm. Забудь про RE пока остальным пользоваться не научишься

~~mashina~~ ★★★★★
(17.10.13 11:58:35 MSK)
Последнее исправление: mashina 17.10.13 12:00:12 MSK (всего исправлений: 1)

Программная полиция

Это не кортеж, это массив.

anonymous
(17.10.13 12:09:24 MSK)

Ответ на: Программная полиция от anonymous 17.10.13 12:09:24 MSK

Программная полиция 2

Это не кортеж, это массив.

Это не массив, это список.

dimderbin ★
(17.10.13 12:30:45 MSK)

Ответ на: Программная полиция 2 от dimderbin 17.10.13 12:30:45 MSK

Питонские закидоны не в счёт.

anonymous
(17.10.13 13:32:02 MSK)

Ссылка

Ответ на: комментарий от mashina 17.10.13 11:58:35 MSK

Этот список я получаю вот таким образом:

arr = self.l.search_s("OU=%s" % department,DC=mfc51,DC=ru", ldap.SCOPE_SUBTREE, "sAMAccountName=%s" % user)

Что тут не так?

nuxster ★★★★
(17.10.13 17:17:00 MSK) автор топика

напиши в начале программы программы строчку:

assert str is not bytes

и станет всё по проще :-)

user_id_68054 ★★★★★
(17.10.13 17:28:48 MSK)

Ответ на: комментарий от nuxster 17.10.13 17:17:00 MSK

дочитай страничку с мануалом до конца

~~mashina~~ ★★★★★
(17.10.13 17:30:58 MSK)

Ответ на: комментарий от user_id_68054 17.10.13 17:28:48 MSK

Ошибку выдает:

Traceback (most recent call last):
  File "script-ldap.py", line 3, in <module>
    assert str is not bytes
AssertionError

nuxster ★★★★
(17.10.13 17:31:37 MSK) автор топика

Ссылка

Ответ на: комментарий от mashina 17.10.13 17:30:58 MSK

Я не совсем понял, что мне это даст?

nuxster ★★★★
(17.10.13 17:47:26 MSK) автор топика

ты хочешь «работать» с символами вне ASCII, при том не указывая, что строки в unicode или нужной кодовой странице

А user_id_68054 - скорее всего хотел намекнуть

assert str is not bytes
str is not bytes

ибо то что ты хочешь превратить в str тип - это просто кусок каких-то непонтных байт!

dimderbin ★
(17.10.13 18:07:20 MSK)

Ответ на: комментарий от dimderbin 17.10.13 18:07:20 MSK

Хорошо, это я понял. Но как мне применить те функции которые описаны в мануале, что дал mashina? Они ведь не осуществляют поиск, а мне нужно получить список всех юзверей в АД.

nuxster ★★★★
(17.10.13 18:16:27 MSK) автор топика

Ссылка

for username in arr:
    for x in re.findall(u'[А-Яа-яёЁ .]+', username[0]):
        print "%s" % x

на мой взгляд

dimderbin ★
(17.10.13 18:21:51 MSK)

Ответ на: комментарий от dimderbin 17.10.13 18:21:51 MSK

Да я вот как раз так и делаю. Получается на выходе:

Ши
кин Анд
ей В.
Г
ина Ма
ия В.
Боб
ов
кий Анд
ей А.
 В.
Ян
енко Дени
 А.
анд
 А.
О
е
ед
Ми
еев Федо
 А.
Че
аев Се
гей В.
.....

nuxster ★★★★
(17.10.13 18:31:47 MSK) автор топика

Ответ на: комментарий от dimderbin 17.10.13 18:07:20 MSK

А user_id_68054 - скорее всего хотел намекнуть

я скорее намекнул на то что...

либо надо использовать Python-3 (а не Python-2)...

...либо использовать Python-2 но при этом стараться ни где НЕ использовать bytes (и это труднее чем может показатсья на первый взгляд :)) :-)

говоря про bytes это касается и: arr = [... ... ...]

user_id_68054 ★★★★★
(17.10.13 18:43:23 MSK)
Последнее исправление: user_id_68054 17.10.13 18:44:15 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от nuxster 17.10.13 18:31:47 MSK

http://rghost.ru/49475352

dimderbin ★
(17.10.13 18:47:51 MSK)

Ссылка

# -*- coding: utf-8 -*-

import re
arr = ['cn=Иванова Василий И.,OU=Manage,DC=domain,DC=loc', 'cn=Петров Иван В.,OU=Manage,DC=domain,DC=loc', 'cn=Сидоров Григорий А.,OU=Manage,DC=domain,DC=loc']
for username in arr:
	if type(username) != unicode:
		username=unicode(username,'utf-8')
	print '-',username
	for x in re.findall(u'[А-Яа-яёЁ .]+',username):
		print ">%s" % x


--------------------------------
- cn=Иванова Василий И.,OU=Manage,DC=domain,DC=loc
>Иванова Василий И.
- cn=Петров Иван В.,OU=Manage,DC=domain,DC=loc
>Петров Иван В.
- cn=Сидоров Григорий А.,OU=Manage,DC=domain,DC=loc
>Сидоров Григорий А.

dimderbin ★
(17.10.13 19:17:54 MSK)

Ссылка

Ответ на: комментарий от nuxster 17.10.13 17:47:26 MSK

Я не совсем понял, что мне это даст?

тебе это даст правильное решение задачи. Конкретно, там уже есть парсер DN

>>> ldap.dn.str2dn('cn=Michael Str\xc3\xb6der,dc=stroeder,dc=com',flags=ldap.DN_FORMAT_LDAPV3)
[[('cn', 'Michael Str\xc3\xb6der', 4)], [('dc', 'stroeder', 1)], [('dc', 'com', 1)]]
>>> ldap.dn.str2dn('cn=Michael Str\C3\B6der,dc=stroeder,dc=com',flags=ldap.DN_FORMAT_LDAPV3)
[[('cn', 'Michael Str\xc3\xb6der', 4)], [('dc', 'stroeder', 1)], [('dc', 'com', 1)]]

~~mashina~~ ★★★★★
(17.10.13 20:58:59 MSK)

Ответ на: комментарий от mashina 17.10.13 20:58:59 MSK

Хорошо, делаю так:

result = l.search_s('ou=Manage,dc=domain,dc=loc',ldap.SCOPE_SUBTREE,'(&(objectCategory=Person)(objectClass=user))',['cn','mail'])

pattern = '[А-Яа-яЁё .]+'

for dn in result:
    users = ldap.dn.str2dn(dn[0], flags=ldap.DN_FORMAT_LDAPV3)

for username in users:
    username = username[0][1]
    print username

Печатает:

Иванов Иван И.
Manage
domain
loc

Отлично...

Но если я пытаюсь выдерну ФИО:

for username in users:
username = username[0][1]
for x in re.findall(pattern, username):
    print "%s" % x

Выводятся только две первые буквы фамилии и все. В чем косяк? Регулярку проверил тут: https://pythex.org/, все ок.

nuxster ★★★★
(18.10.13 10:20:35 MSK) автор топика

Ссылка

Ответ на: Программная полиция 2 от dimderbin 17.10.13 12:30:45 MSK

Это не массив, это список.

Вброс не в тему: «массив» - это конкретная структура данных, в данном случае вполне корректно, ибо реализация dynamic array. «Список» - абстрактная (по-крайней мере в контексте питона). rtfm, короче.

anonymous
(18.10.13 10:24:30 MSK)

Ответ на: комментарий от anonymous 18.10.13 10:24:30 MSK

Да какая разница как я его назвал? Из листинга понятно, что это такое. Не будем придираться к словам. С терминологией может возникать путаница, тем более при таком количестве различных определений одних вещей.

nuxster ★★★★
(18.10.13 10:42:47 MSK) автор топика

Ссылка

В общем сделал так:

result = l.search_s('ou=Manage,dc=domain,dc=loc',ldap.SCOPE_SUBTREE,'(&(objectCategory=Person)(objectClass=user))',['cn','mail'])

for dn in result:
    users = ldap.dn.str2dn(dn[0], flags=ldap.DN_FORMAT_LDAPV3)

    for username in users:
        if username[0][0] == 'CN':
            print username[0][1]

Отдельное спасибо ~~mashina~~ и dimderbin !

Разъясните пожалуйста мне, почему мой вариант с регулярками не корректно работал?

nuxster ★★★★
(18.10.13 11:37:21 MSK) автор топика

Ответ на: комментарий от nuxster 18.10.13 11:37:21 MSK

# -*- coding: utf-8 -*-
import re

users = ['Иванов Иван И.', u'Иванов Иван И.']
patterns = ['[А-Яа-яЁё .]+', u'[А-Яа-яЁё .]+']

for username in users:
    for pattern in patterns:
        print username, pattern
        print type(username),type(pattern)
        for x in re.findall(pattern, username):
            print ">>%s" % x
        print

anonymous
(18.10.13 11:46:48 MSK)

Ссылка

Ответ на: комментарий от nuxster 18.10.13 11:37:21 MSK

Еще вот такая штука не понятна мне: если я делаю так:

for username in users:
        if username[0][0] == 'CN':
            print username[0][1]

то, username[0][1] получается строка? и его по идее без проблем можно добавить в список:

for username in users:
        if username[0][0] == 'CN':
            users.append(username[0][1])
print users

Но в этом списке оказывается не только имя пользователя:

[[('CN', '\xd0\x9c\xd0\xb8\xd1\x85\xd0\xb5\xd0\xb5\xd0\xb2 \xd0\xa4\xd0\xb5\xd0\xb4\xd0\xbe\xd1\x80 \xd0\x90.', 4)], [('OU', 'Manage', 1)], [('DC',
 'domain', 1)], [('DC', 'loc', 1)], '\xd0\x9c\xd0\xb8\xd1\x85\xd0\xb5\xd0\xb5\xd0\xb2 \xd0\xa4\xd0\xb5\xd0\xb4\xd0\xbe\xd1\x80 \xd0\x90.']

Где косяк?

nuxster ★★★★
(18.10.13 12:22:36 MSK) автор топика

Ответ на: комментарий от nuxster 18.10.13 12:22:36 MSK

for username in users:
        if username[0][0] == 'CN':
            users.append(username[0][1])
print users

anonymous
(18.10.13 12:27:22 MSK)

Ответ на: комментарий от anonymous 18.10.13 12:27:22 MSK

Спасибо добрый человек! Вот я баклажан слепой... )))

nuxster ★★★★
(18.10.13 12:53:56 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Инфраструктура приложения.

Development

UDP Socket peek →

Программная полиция

Программная полиция 2

Похожие темы