Python запись в csv (построчно)

csv, parsing, python

Немного подзабыл python пришлось вспоминать. У меня в результате парсинга и последующей обработки получаются списки разной длины то есть они могут включать в себя разное количество исходных строк. Строки у меня это данные разделенные </td><td> все лишнее уже убрано. Один список соответствует одному файлу csv. И надо как то записать в csv файл но так чтобы данные писались сверху вниз, а не сдвигались вправо. Так то у меня получается, но это не подходит. Help

список1

список2

список3

а не список1 список 2 список 3

контент: https://pastebin.com/8mKB9gSt

Ссылка

← Fifo реализация на Си с минимальными затратами по времени

Добавление столбцов →

Ошибка в строке 42.

gruy ★★★★★
(02.03.21 06:41:16 MSK)

Ответ на: комментарий от gruy 02.03.21 06:41:16 MSK

в какой еще строке 42?

~~XoFfiCEr~~ ★★☆☆
(02.03.21 06:44:26 MSK) автор топика

https://www.w3schools.com/python/ref_string_join.asp

/thread

wandrien ★★★★
(02.03.21 06:44:29 MSK)

Ответ на: комментарий от XoFfiCEr 02.03.21 06:44:26 MSK

Это мем по число 42.

Тебе написали, что без кода ничего не понятно.

wandrien ★★★★
(02.03.21 06:45:16 MSK)

Ссылка

Ответ на: комментарий от wandrien 02.03.21 06:44:29 MSK

это не по теме.

А что код даст? обычный csv writer

~~XoFfiCEr~~ ★★☆☆
(02.03.21 06:47:50 MSK) автор топика
Последнее исправление: XoFfiCEr 02.03.21 06:48:08 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 02.03.21 06:47:50 MSK

это не по теме.

Телепаты в отпуске.

Всё по теме, судя по ссылке на кусок данных.

Заменить </td><td> на запятую.
Склеить элементы через join используя символ новой строки как разделитель.

wandrien ★★★★
(02.03.21 06:50:27 MSK)

Ссылка

Вангую, что пишешь парсер сайта для заказчика.

wandrien ★★★★
(02.03.21 06:51:22 MSK)

Ответ на: комментарий от wandrien 02.03.21 06:51:22 MSK

молодец угадал

~~XoFfiCEr~~ ★★☆☆
(02.03.21 06:51:45 MSK) автор топика

Ссылка

Строки у меня это данные разделенные </td><td>

Не увидел.

Ну тогда еще проще. Заменить на перевод строки при помощи https://www.w3schools.com/python/ref_string_replace.asp

wandrien ★★★★
(02.03.21 06:58:30 MSK)
Последнее исправление: wandrien 02.03.21 06:58:52 MSK (всего исправлений: 1)

Ответ на: комментарий от wandrien 02.03.21 06:58:30 MSK

понял но не работает

~~XoFfiCEr~~ ★★☆☆
(02.03.21 07:01:29 MSK) автор топика
Последнее исправление: XoFfiCEr 02.03.21 07:07:32 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от wandrien 02.03.21 06:58:30 MSK

оно по символам делит

~~XoFfiCEr~~ ★★☆☆
(02.03.21 07:05:25 MSK) автор топика

Ссылка

Ответ на: комментарий от wandrien 02.03.21 06:58:30 MSK

ну такое может я не правильно понял

        i = 0
        nlist = []
        while i < len(tcontent):
            t = tcontent[i]
            tf = t[:4]
            if tf == '<td>':                #убираем начальные td
                t = t[4:]
            tf = t[-5:]
            if tf == '</td>':               #убираем конечные td
                t = t[:-5]
            pos = t.find('<th')             #ищем заголовки таблицы
            if pos == -1:
                t = t.replace('</td><td>', "\n")    
                nlist.append(t)
            i = i + 1
        print (nlist)
        csv_writer(nlist, csvname)

~~XoFfiCEr~~ ★★☆☆
(02.03.21 07:15:44 MSK) автор топика

Ответ на: комментарий от XoFfiCEr 02.03.21 07:15:44 MSK

import io
import os
import sys
import re

def read_data(name):
    with open(name,'r') as fin:
        return fin.readlines()

def write_data(name, data):
    with open(name,'w') as fout:
        fout.writelines(data)

def main():
    ed = []
    data = read_data('data.txt')
    data1 = str(data[0])[1:-2]
    flist = data1.split(', ')
    for el in flist:
        dstr = el.strip()
        ed.append(re.sub("\<\/td\>\<td.*?\>",",",dstr)+'\n')
    write_data('end_data.txt',ed)

if __name__ == "__main__":
    main()

ptah_alexs ★★★★★
(02.03.21 07:24:53 MSK)
Последнее исправление: ptah_alexs 02.03.21 07:30:20 MSK (всего исправлений: 2)

Ответ на: комментарий от ptah_alexs 02.03.21 07:24:53 MSK

А, я не правильно прочитал условия.

ptah_alexs ★★★★★
(02.03.21 07:33:04 MSK)

Ссылка

Ответ на: комментарий от XoFfiCEr 02.03.21 07:15:44 MSK

Покажи, что ты хочешь получить в итоге в csv.

Может такое?

    for l in tcontent:
        nlist.append(l.split('</td><td>'))

gruy ★★★★★
(02.03.21 08:19:31 MSK)

O RLY?

данные разделенные </td><td>
все лишнее уже убрано

при этом в данных: </td><td width="91" class="price_cena">

данные разделенные </td><td>

Может, ты начнёшь с правильного парсинга HTML для формирования данных?

shrub ★★★★★
(02.03.21 09:55:41 MSK)

Ответ на: O RLY? от shrub 02.03.21 09:55:41 MSK

Может, ты начнёшь с правильного парсинга HTML для формирования данных?

Вот если бы только в Python были готовые библиотеки для парсинга HTML! Жаль, что питонистам приходится каждый раз писать свои кривые парсеры, которые выдают говно.

theNamelessOne ★★★★★
(02.03.21 11:05:33 MSK)

Ответ на: комментарий от theNamelessOne 02.03.21 11:05:33 MSK

beautifulsoup, по-вашему, не готов?!!!

Shadow ★★★★★
(02.03.21 11:12:15 MSK)

Прекрати так делать.
Используй beautifulsoup для парсинга и pandas для манипуляций с таблицами.

Shadow ★★★★★
(02.03.21 11:12:55 MSK)

Ответ на: комментарий от Shadow 02.03.21 11:12:15 MSK

/sarcasm

theNamelessOne ★★★★★
(02.03.21 11:20:49 MSK)

Ответ на: комментарий от theNamelessOne 02.03.21 11:20:49 MSK

От блин я не распознал...
На самом деле, почему-то питонисты делают заметно меньше велосипедов, чем javascript разработчики.

Shadow ★★★★★
(02.03.21 11:44:33 MSK)

Ссылка

Ответ на: комментарий от Shadow 02.03.21 11:12:55 MSK

с такими таблицами как в исходнике не поможет bs я же пробовал. Там от 0 до 3 таблиц на веб-странице и все теги td могут быть с colspan и rowspan то есть что то максимально перепутанное.

~~XoFfiCEr~~ ★★☆☆
(02.03.21 14:27:36 MSK) автор топика

Ответ на: O RLY? от shrub 02.03.21 09:55:41 MSK

с парсингом все нормально у меня, уже сформирован список с чистыми данными без мусора. Думаю надо вывести их и вставить в libre office calc все сразу потом поделить на странице и сохранить в csv ибо клиенту нужны именно данные.

~~XoFfiCEr~~ ★★☆☆
(02.03.21 14:32:14 MSK) автор топика
Последнее исправление: XoFfiCEr 02.03.21 14:32:42 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 02.03.21 14:32:14 MSK

<td width="91" class="price_cena">

Morin ★★★★★
(02.03.21 14:40:23 MSK)
Последнее исправление: Morin 02.03.21 14:40:37 MSK (всего исправлений: 1)

Ответ на: комментарий от Morin 02.03.21 14:40:23 MSK

и? что сказать то хотел?

~~XoFfiCEr~~ ★★☆☆
(02.03.21 14:43:18 MSK) автор топика

Ответ на: комментарий от XoFfiCEr 02.03.21 14:43:18 MSK

Строки у меня это данные разделенные </td><td>

Morin ★★★★★
(02.03.21 14:46:02 MSK)
Последнее исправление: Morin 02.03.21 14:46:12 MSK (всего исправлений: 1)

Ссылка

CSV writerow

whoisyou ★
(02.03.21 14:47:05 MSK)

Ответ на: комментарий от XoFfiCEr 02.03.21 14:32:14 MSK

У тебя пока каша в голове, а не нормально оформленная задача.

Я там выше спрашивал, как именно в итоге должно это выглядеть (одной строчки csv будет достаточно).

Заодно пример привел. В итоге в cvs попадает такое (да, не все ты подчистил):

01 ОСТ 34-10-613-93,57,-,-,219,6,460,"9,70</td><td width=""91"" class=""price_cena"">     "
02 ОСТ 34-10-613-93,76,57,-,273,6,515,"14,00"
03 ОСТ 34-10-613-93,89; 108,76; 89,57,325,6,565,"16,50"

Но пока ты не оформишь в голове, что в итоге нужно получить - ничего не получится, так и будешь вручную гонять через всякие «офисы».

gruy ★★★★★
(02.03.21 14:47:46 MSK)

Ссылка

Ответ на: комментарий от gruy 02.03.21 08:19:31 MSK

Если правильно понял из первого поста, то такой список нужно превратить в такую csv
https://imgur.com/a/QPUwJso

mydibyje ★★★★
(02.03.21 14:48:23 MSK)

Ответ на: комментарий от whoisyou 02.03.21 14:47:05 MSK

Да он не может исходные данные разбить на список строк со списками полей.

gruy ★★★★★
(02.03.21 14:48:41 MSK)

Ссылка

Ответ на: комментарий от mydibyje 02.03.21 14:48:23 MSK

Элементарно решается в 10-ок строк.

gruy ★★★★★
(02.03.21 14:52:19 MSK)

Ссылка

Ответ на: комментарий от XoFfiCEr 02.03.21 14:27:36 MSK

не поможет bs я же пробовал

Блиииин...
Ну, поучи xpath и вот это всё. Какая разница, как нарисована таблица...

Shadow ★★★★★
(02.03.21 15:21:48 MSK)

Ссылка

Ответ на: комментарий от mydibyje 02.03.21 14:48:23 MSK

да, и нужен алгоритм как то еще заполнить недостающие поля в таблицах из за colspan и rowspan

gruyу меня нет каши в голове просто немного утреннего недосыпа, то что мне надо я сразу сформулировал.

~~XoFfiCEr~~ ★★☆☆
(02.03.21 17:57:48 MSK) автор топика

Ссылка

начни с beautifulsoup, подкрепи pandas-ом, не изобретай велосипеды.

peregrine ★★★★★
(03.03.21 14:26:24 MSK)

Ответ на: комментарий от Shadow 02.03.21 11:12:55 MSK

Плюсую

peregrine ★★★★★
(03.03.21 14:26:44 MSK)

Ссылка

Ответ на: комментарий от peregrine 03.03.21 14:26:24 MSK

сколько раз говорить в треде о том что не подходит bs

~~XoFfiCEr~~ ★★☆☆
(03.03.21 16:13:04 MSK) автор топика

Ответ на: комментарий от XoFfiCEr 03.03.21 16:13:04 MSK

Еще pandas посоветовали, в доках пишут, что он пытается правильно разобраться с colspan и rowspan.

gruy ★★★★★
(03.03.21 16:22:36 MSK)

Ответ на: комментарий от gruy 03.03.21 16:22:36 MSK

да? вот это хорошая новость, спасибо

~~XoFfiCEr~~ ★★☆☆
(03.03.21 18:38:56 MSK) автор топика

Ссылка

Ответ на: комментарий от XoFfiCEr 03.03.21 16:13:04 MSK

Не бьютифулсуп не подходит, а твоя компетенция под него не подходит. Через годик другой возвращайся, а пока иди учись.

peregrine ★★★★★
(07.03.21 21:30:46 MSK)
Последнее исправление: peregrine 07.03.21 21:30:52 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 07.03.21 21:30:46 MSK

если я пишу что bs не подходит значит не подходит потому что пробовал, лучше будет если ты не будешь тут свой ум демонстрировать с явно выраженным желанием обос^W^Hть все вокруг, не отвечай больше на мои сообщения.

~~XoFfiCEr~~ ★★☆☆
(07.03.21 21:39:36 MSK) автор топика

Ссылка

Тема закрывается вопрос давно решен, но я весьма разочарован ладно у меня тупняк с утра потому что я в основном ночью работаю, но вы мне почти ничего толком не подсказали. А решение то простое было, да сам дошел:

И списки никакие не нужны были.

def csv_writer(data, path):
    cfile = open(path, "w")
    arr = data.split('</td></tr><tr><td>')   #разделяем по строкам таблицы
    for lst in arr:
        lst = lst.replace('</td><td>', ',') #разделяем по ячейкам таблицы
        lst = lst.replace('>', '') #откуда эта хрень взялась? убираем
        cfile.write(lst)  #записываем
        cfile.write("\n")  #переводим строку
    cfile.close() #закрываем

~~XoFfiCEr~~ ★★☆☆
(19.03.21 14:58:08 MSK) автор топика
Последнее исправление: XoFfiCEr 19.03.21 14:59:37 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 19.03.21 14:58:08 MSK

Рукалицо. Удали, не позорься.

gruy ★★★★★
(19.03.21 15:13:12 MSK)

Ответ на: комментарий от gruy 19.03.21 15:13:12 MSK

ты лучше удали свои бесполезные комментарии ты уж нафлудил начиная с первого же сообщения.

~~XoFfiCEr~~ ★★☆☆
(19.03.21 15:15:20 MSK) автор топика
Последнее исправление: XoFfiCEr 19.03.21 15:15:53 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 19.03.21 15:15:20 MSK

Дело твое. Ну хотя бы библиотеку csv используй, а? Что будет, когда где-то в «ячейке» попадется ,?

gruy ★★★★★
(19.03.21 15:18:23 MSK)

Ответ на: комментарий от gruy 19.03.21 15:18:23 MSK

нет такого

~~XoFfiCEr~~ ★★☆☆
(19.03.21 15:20:24 MSK) автор топика

Ссылка

Ответ на: комментарий от gruy 19.03.21 15:18:23 MSK

чисто запятых нет, чтоб в ячейке таблицы только запятая и все а есть например число с десятичной точкой то есть запятой - 11,4 ну конечно когда я открывал csv в либре оно и отображалось как 11 4 так это без вариантов.

~~XoFfiCEr~~ ★★☆☆
(20.03.21 06:33:24 MSK) автор топика