Задача - поиск в файлах с русским текстом в кодировке cp1251.
Не получается искать интервалы, составленные кириллицей.
Кто сталкивался, подскажите, как исправить функцию или выражение:
#!/usr/local/bin/python
# -*- coding: utf-8
import re
import codecs
def grab_ru(files=[]):
found=[]
if files !=None:
txtsrch=re.compile(r"фы")# такое выражение находит,
## txtsrch=re.compile(r"[фы]")# а такое НЕ находит,
for file in files:
for line in open(file, 'r'):
## без перекодировки тоже не работает с русским
line=codecs.getdecoder('cp1251')(line)[0]
line=codecs.getencoder('utf8')(line)[0]
found.extend(mailsrch.findall(line))
u={}
for item in found:
u[item] =1
return u.keys()
print grab_ru(files=['ru.txt'])
Спасибо
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от watashiwa_daredeska
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Ctrl-C многопоточной программы на Python (2012)
- Форум python argparse unittest (2013)
- Форум python3 subprocess.Popen не принимает кириллицу (2011)
- Форум Зацените скрипт на питоне, по перекодировке mp3 тэгов. (2006)
- Форум Проблемы с командой sudo apt-update (2021)
- Форум python 2.7, pyramid-1.3, chameleon (2012)
- Форум python, ctypes, callbacks (2009)
- Форум Скрипт для загрузки файлов через scp (2018)
- Форум Значения присваиваются переменным в разном порядке (2018)
- Форум spyne как отправить и получить xml (2016)