python разбивка строк

Есть массив строк, надо каждую строку разделить на несколько частей известной заранее длины.

Например,

VISA CLASSIC        06ИЮЛ 08ИЮЛ14 xxxxxx NESTE AZS 512          RUR           79.00       79.00

надо разделить на «VISA CLASSIC», «06ИЮЛ», «08ИЮЛ14», «xxxxxx», «NESTE AZS 512», «RUR», «79.00», «79.00»

содержимое первого и пятого столбца может быть разным и включать в себя сколько угодно пробелов, но текст отформатирован, так что всё идет ровными столбцами.

Есть вариант перевести строку в массив и навелосипедить, но вдруг уже все готово?

Ссылка

← MySQL почему-то добавляет лишний префикс к имени таблицы. Как побороть?

Optimizely ломают мне web →

anonymous
(16.07.14 02:56:12 MSK)

Ссылка

Тут велосипедить пол-строки..

[s[start:end] for (start,end) in zip(ix[:-1], ix[1:])]

anonymous
(16.07.14 02:59:24 MSK)

Ответ на: комментарий от anonymous 16.07.14 02:59:24 MSK

а start:end считается в байтах или символах?

cvs-255 ★★★★★
(16.07.14 03:03:58 MSK) автор топика

#!/usr/bin/env python
# -*- coding: utf-8 -*-

_line = u"VISA CLASSIC        06ИЮЛ 08ИЮЛ14 xxxxxx NESTE AZS 512          RUR           79.00       79.00"

def split_fields(line, field_sizes, delim_size=0, strip=False):
    offset = 0
    for size in field_sizes:
        field = line[offset : offset + size]
        yield field.strip() if strip else field
        offset += size + delim_size

if __name__ == '__main__':
    for field in split_fields(_line, [19, 5, 7, 6, 5, 3, 12, 13, 11, 5], delim_size=1, strip=True):
        print "'" + field + "'"

theNamelessOne ★★★★★
(16.07.14 03:05:17 MSK)

Ссылка

#!/usr/bin/python3
# -*- coding: utf-8 -*-

import re

line = u'VISA CLASSIC        06ИЮЛ 08ИЮЛ14 xxxxxx NESTE AZS 512          RUR           79.00       79.00'

r = re.compile(' * '.join(['([^ ].{1,%i}[^ ])' % (i-2) for i in [19,5,7,6,22,14,12,20]]))
m = re.match(r, line)
if m:
    for i in range(9):
        print('%i: >%s<' % (i, m.group(i)))

anonymous
(16.07.14 03:11:43 MSK)

Ссылка

Ответ на: комментарий от cvs-255 16.07.14 03:03:58 MSK

А у тебя строка в байтах или в юникоде?

theNamelessOne ★★★★★
(16.07.14 03:17:25 MSK)

Ответ на: комментарий от theNamelessOne 16.07.14 03:17:25 MSK

изначально в utf8

cvs-255 ★★★★★
(16.07.14 03:44:34 MSK) автор топика

Ответ на: комментарий от cvs-255 16.07.14 03:44:34 MSK

Тогда в символах.

theNamelessOne ★★★★★
(16.07.14 03:54:12 MSK)

Ссылка

Ответ на: комментарий от cvs-255 16.07.14 03:44:34 MSK

Нет, тип какой, str или unicode? В unicode идёт в символах, но utf8 к нему никаким боком не относится. Можешь считать символы, из которых состоит строка unicode, объектами.

~~Ttt~~ ☆☆☆☆☆
(18.07.14 13:29:59 MSK)
Последнее исправление: Ttt 18.07.14 13:35:01 MSK (всего исправлений: 1)

Ссылка

То ли у нас тут охренительные знатоки Python, то ли я не понял задачу, но:

>>> x="VISA CLASSIC        06ИЮЛ 08ИЮЛ14 xxxxxx NESTE AZS 512          RUR           79.00       79.00"
>>> print x.split()
['VISA', 'CLASSIC', '06\xd0\x98\xd0\xae\xd0\x9b', '08\xd0\x98\xd0\xae\xd0\x9b14', 'xxxxxx', 'NESTE', 'AZS', '512', 'RUR', '79.00', '79.00']
>>>

tailgunner ★★★★★
(18.07.14 13:33:44 MSK)

Ответ на: комментарий от tailgunner 18.07.14 13:33:44 MSK

надо разделить на «VISA CLASSIC»

['VISA', 'CLASSIC',

anonymous
(18.07.14 13:35:07 MSK)

Ссылка

Ответ на: комментарий от tailgunner 18.07.14 13:33:44 MSK

Тогда NESTE AZS 512 будет как отдельные строки, а ему нужно, чтобы считалась как одна.

~~Ttt~~ ☆☆☆☆☆
(18.07.14 13:36:02 MSK)

Ответ на: комментарий от Ttt 18.07.14 13:36:02 MSK

Если на входе - запись фиксированного размера, то и нужно выбирать по фиксированным смещениям: x[0:12], x[20:39] и т.д.

tailgunner ★★★★★
(18.07.14 13:42:15 MSK)

Ответ на: комментарий от tailgunner 18.07.14 13:42:15 MSK

Ну это я понимаю, только судя по всему, ТС такое решение считает велосипедом :) Или может я не совсем допонимаю, может там не все столбцы одинаковой длины.

~~Ttt~~ ☆☆☆☆☆
(18.07.14 13:53:22 MSK)

Там, в оригинале, случайно не табы в качестве разделителя?

anonymous
(18.07.14 14:56:00 MSK)

Ответ на: комментарий от Ttt 18.07.14 13:53:22 MSK

Нет, именно так и надо было. Только долго тупил из-за недостаточного знания python. [x1:x2] давало сбой из-за utf8. после перевода в юникод стало работать без проблем.

cvs-255 ★★★★★
(18.07.14 16:42:20 MSK) автор топика

Ответ на: комментарий от anonymous 18.07.14 14:56:00 MSK

нет, пробелы

cvs-255 ★★★★★
(18.07.14 16:42:31 MSK) автор топика

Ссылка

Ответ на: комментарий от cvs-255 18.07.14 16:42:20 MSK

Надо бы кастануть ~~Eddy_Em~~, чтобы он рассказал, что юникод не нужен.

~~Ttt~~ ☆☆☆☆☆
(19.07.14 00:42:28 MSK)

Ответ на: комментарий от Ttt 19.07.14 00:42:28 MSK

А если какой китайский символ попадется, что Эдик делать будет? Хотя в данном конкретном примере ему неоткуда быть

cvs-255 ★★★★★
(19.07.14 01:15:39 MSK) автор топика
Последнее исправление: cvs-255 19.07.14 01:16:42 MSK (всего исправлений: 1)

Ответ на: комментарий от cvs-255 19.07.14 01:15:39 MSK

Скажет, что китайцы не нужны :)

~~Ttt~~ ☆☆☆☆☆
(19.07.14 01:33:12 MSK)

Ссылка

Ответ на: комментарий от cvs-255 19.07.14 01:15:39 MSK

А если какой китайский символ попадется, что Эдик делать будет?

А я, вообще-то, русский. И кроме английского иностранных языков не знаю. На кой хрен мне кетайщина?

~~Eddy_Em~~ ☆☆☆☆☆
(19.07.14 13:43:05 MSK)

Ответ на: комментарий от Eddy_Em 19.07.14 13:43:05 MSK

ну попадется в парсимом выражении китайский. всякое бывает

cvs-255 ★★★★★
(19.07.14 13:51:40 MSK) автор топика

Ответ на: комментарий от cvs-255 19.07.14 13:51:40 MSK

тогда он залезет под одеяло, и никакого ненужного китайского не станет

anonymous
(19.07.14 13:54:56 MSK)

Ссылка

Ответ на: комментарий от cvs-255 19.07.14 13:51:40 MSK

Не попадется. Я хрюникод никогда не использую.

~~Eddy_Em~~ ☆☆☆☆☆
(19.07.14 13:55:18 MSK)

Ответ на: комментарий от Eddy_Em 19.07.14 13:55:18 MSK

Ты нет, а тот, а вот если ты парсишь чьи-то данные, кто использует юникод?

cvs-255 ★★★★★
(19.07.14 13:59:28 MSK) автор топика

Ответ на: комментарий от cvs-255 19.07.14 13:59:28 MSK

В этом случае я сначала преобразую из хрюникода в кои8! А с хрюникодом пусть ССЗБ трахаются!

~~Eddy_Em~~ ☆☆☆☆☆
(19.07.14 14:09:53 MSK)

А зачем ты это парсишь на пхытоне? Чем тебя баш не устраивает?

~~Eddy_Em~~ ☆☆☆☆☆
(19.07.14 14:10:38 MSK)

Ответ на: комментарий от Eddy_Em 19.07.14 14:09:53 MSK

а с китайскими символами что делать будешь?

cvs-255 ★★★★★
(19.07.14 14:18:58 MSK) автор топика

Ответ на: комментарий от Eddy_Em 19.07.14 14:10:38 MSK

в bash я умею еще меньше, чем в питон

cvs-255 ★★★★★
(19.07.14 14:19:37 MSK) автор топика

Ссылка

Ответ на: комментарий от cvs-255 19.07.14 14:18:58 MSK

Я — не китаец, нафиг они мне нужны эти китайские символы?

в bash я умею еще меньше, чем в питон

А зря. Баш — штука полезная, в отличие от пхытона.

~~Eddy_Em~~ ☆☆☆☆☆
(19.07.14 14:29:02 MSK)

Ответ на: комментарий от Eddy_Em 19.07.14 14:29:02 MSK

ну мало ли попадутся

cvs-255 ★★★★★
(19.07.14 16:23:28 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← MySQL почему-то добавляет лишний префикс к имени таблицы. Как побороть?

Development

Optimizely ломают мне web →

Похожие темы