Регулярные выражения, Python и кириллица

0

0

Задача - поиск в файлах с русским текстом в кодировке cp1251.
Не получается искать интервалы, составленные кириллицей.

Кто сталкивался, подскажите, как исправить функцию или выражение:

#!/usr/local/bin/python
# -*- coding: utf-8

import re
import codecs

def grab_ru(files=[]):
found=[]
if files !=None:
txtsrch=re.compile(r"фы")# такое выражение находит,
## txtsrch=re.compile(r"[фы]")# а такое НЕ находит,

for file in files:
for line in open(file, 'r'):
## без перекодировки тоже не работает с русским
line=codecs.getdecoder('cp1251')(line)[0]
line=codecs.getencoder('utf8')(line)[0]

found.extend(mailsrch.findall(line))
u={}
for item in found:
u[item] =1

return u.keys()

print grab_ru(files=['ru.txt'])

Спасибо

Ссылка

← Кодинг Qt c использованием Emacs

Tcl vs Python →

извините, сбились интервалы и опечатка
в предыдущем посте
#!/usr/local/bin/python
# -*- coding: utf-8

import re
import codecs

def grab_ru(files=[]):
found=[]
if files !=None:
txtsrch=re.compile(r"фы")# такое выражение находит,
## txtsrch=re.compile(r"[фы]")# а такое НЕ находит,

for file in files:
for line in open(file, 'r'):
## без перекодировки тоже не работает с русским
line=codecs.getdecoder('cp1251')(line)[0]
line=codecs.getencoder('utf8')(line)[0]

found.extend(txtsrch.findall(line))
u={}
for item in found:
u[item] =1

return u.keys()

print grab_ru(files=['ru.txt'])

Спасибо

anonymous
(30.05.05 13:42:37 MSK)

Ответ на: комментарий от anonymous 30.05.05 13:42:37 MSK

На счет regexp не подскажу, на счет перекодировки . # -*- coding: utf-8 <- По умолчанию UTF-8 значит cp1251 не родной %) line=codecs.getdecoder('cp1251')(line)[0] line=codecs.getencoder('utf8')(line)[0] Лишнее, line это объект string, у него есть метод decode, encode line=codecs.getdecoder('cp1251')(line)[0] == line.decode("cp1251"),

Без перекодировки работать не будет, UTF-8 по умолчанию, на счет regexp ищи O'Reilly - Mastering Regular Expressions.pdf , лучше мануала нет. если нужно искать только "фы" , то можно обойтись без re , string.find() find( s, sub[, start[,end]])

Return the lowest index in s where the substring sub is found such that sub is wholly contained in s[start:end]. Return -1 on failure. Defaults for start and end and interpretation of negative values is the same as for slices.

Надеюсь поможет.

anonymous
(30.05.05 16:07:40 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.05.05 13:42:37 MSK

-        txtsrch=re.compile(r"фы")
-#        txtsrch=re.compile(ur"[фы]")
+#        txtsrch=re.compile(r"фы")
+        txtsrch=re.compile(ur"[фы]")
...
-                line=codecs.getencoder('utf8')(line)[0]
+                #line=codecs.getencoder('utf8')(line)[0]

watashiwa_daredeska ★★★★
(30.05.05 16:23:36 MSK)

Ответ на: комментарий от watashiwa_daredeska 30.05.05 16:23:36 MSK

Спасибо!
Работающий вариант с подачи watashiwa_daredeska.

#!/usr/local/bin/python
# -*- coding: utf-8
import re
import codecs

def grab_ru(files=[]):
    found=[]
    if files !=None:
        txtsrch=re.compile(ur"[фы]")
    for file in files:
        for line in open(file, 'r'):
## без перекодировки тоже не работает с русским
            line=codecs.getdecoder('cp1251')(line)[0]
            found.extend(txtsrch.findall(line))
    u={}
    for item in found:
        u[item] =1

    return u.keys()

print grab_ru(files=['ru.txt'])

anonymous
(30.05.05 17:46:17 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Кодинг Qt c использованием Emacs

Development

Tcl vs Python →

Похожие темы