Наколеночный скрипт Python

beautifullsoup, python, говнокод, парсинг веб-страниц

1

1

В продолжение прошлой темы, я, как любитель K&R C Book, накропал вот такой «наколеночный» говнокод,

чтобы парсить исходники из глав (сорцы внутри тега pre).

Прошу спецов по Питону его усовершенствовать, т.к. с Цирко-Змеем практически не знаком.

Код


#!/usr/bin/python
import sys
from bs4 import BeautifulSoup

 

soup = BeautifulSoup(open(sys.argv[1],'r'))
foutput = open(sys.argv[2],'w')
y = soup.find_all('pre') 
for a in y:
	z = a.string
	foutput.write(z)

Ссылка

← iOS/Android/Web/Desktop

Трагедия CommonLisp →

← 1 2 →

use with, luke!

with open('mscore.dll','w') as f:
    do_dll_hell()

anonymous
(18.06.15 20:22:00 MSK)

Ссылка

Как-то так. Не проверял. Можно ещё лучше сделать, но мне дальше лень.

#!/usr/bin/python
import os
import sys
from bs4 import BeautifulSoup

if not len(sys.argv) == 3:
    print 'Usage: %s <input> <output>' %s sys.argv[0]
    exit(1)

in_file = sys.argv[1]
out_file = sys.argv[2]

if not os.path.exists(in_file):
    print 'File %s does not exists' % in_file 
    exit(1)

with open(in_file, 'r') as source:
    soup = BeautifulSoup(source)
    with open(out_file, 'w') as dest:
        for i in soup.find_all('pre'):
            dest.write(i.string)

Kilte ★★★★★
(18.06.15 20:29:32 MSK)

Ответ на: комментарий от Kilte 18.06.15 20:29:32 MSK

Спасибо, красиво!

Сейчас попробую.

~~Twissel~~ ★★★★★
(18.06.15 20:32:32 MSK) автор топика

Ссылка

Ответ на: комментарий от Kilte 18.06.15 20:29:32 MSK

File "./parse2.py", line 7
    print 'Usage: %s <input> <output>' %s sys.argv[0]
                                            ^
SyntaxError: invalid syntax

~~Twissel~~ ★★★★★
(18.06.15 20:40:45 MSK) автор топика

Ответ на: комментарий от Twissel 18.06.15 20:40:45 MSK

без s, опечатка вышла

Kilte ★★★★★
(18.06.15 20:45:04 MSK)
Последнее исправление: Kilte 18.06.15 20:45:26 MSK (всего исправлений: 1)

Ответ на: комментарий от Kilte 18.06.15 20:45:04 MSK

Ну да: https://docs.python.org/2/tutorial/inputoutput.html#old-string-formatting

~~Twissel~~ ★★★★★
(18.06.15 20:50:59 MSK) автор топика

Ответ на: комментарий от Twissel 18.06.15 20:50:59 MSK

Не понял. Всё работает теперь?

Вообще я слышал, что более pythonic-way — использовать метод format. Ну это уже сам решай. Как по-мне, старый стиль удобнее будет. Хотя для именованных плейсхолдеров предпочитаю использовать всё-таки format.

Kilte ★★★★★
(18.06.15 20:58:10 MSK)

Ответ на: комментарий от Kilte 18.06.15 20:58:10 MSK

Да, все отлично :-)

Не знаю для задачи такого размера, по-моему, это не имеет значения.

~~Twissel~~ ★★★★★
(18.06.15 22:39:12 MSK) автор топика

Ссылка

Ответ на: комментарий от Kilte 18.06.15 20:29:32 MSK

sys.argv лучше заменить на argparse.

xpahos ★★★★★
(19.06.15 04:03:31 MSK)

Ответ на: комментарий от xpahos 19.06.15 04:03:31 MSK

sys.argv лучше заменить на argparse.

на docopt

anonymous
(19.06.15 06:07:48 MSK)

Ответ на: комментарий от xpahos 19.06.15 04:03:31 MSK

Что это даст?

~~Twissel~~ ★★★★★
(19.06.15 06:15:41 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 06:15:41 MSK

Не будет мучительно больно, если захочется добавить больше ключей.

PolarFox ★★★★★
(19.06.15 06:19:17 MSK)

Ссылка

НЕ ИСПОЛЬЗУЙ BeautifulSoup, используй html5lib.

#!/usr/bin/python
import sys
import html5lib

f = open(sys.argv[1],'r')
document = html5lib.parse(f, treebuilder="lxml")
contents = document.xpath('//pre/node()')

cheerfulboy ★
(19.06.15 07:42:37 MSK)

Ответ на: комментарий от cheerfulboy 19.06.15 07:42:37 MSK

Чем это лучше lxml?

anonymous
(19.06.15 08:18:45 MSK)

Ответ на: комментарий от cheerfulboy 19.06.15 07:42:37 MSK

В чем профит?

~~Twissel~~ ★★★★★
(19.06.15 09:39:48 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 09:39:48 MSK

Подозреваю, что html5lib больше рассчитан на валидный хтмл и указывает на ошибки при инвалидном.

Не помню, почему именно оставил BS, но lxml уделывает по скорости всех. Также в lxml есть xpath и cssselect, то есть он довольно удобный, не помню, что там в BS.

anonymous
(19.06.15 10:05:53 MSK)

Ответ на: комментарий от anonymous 19.06.15 06:07:48 MSK

Не знаю, тянуть целый метаязык, для одного скрипта,

который решает простую и тривиальную задачу.

Тебя Леннарт покусал?!

~~Twissel~~ ★★★★★
(19.06.15 10:33:16 MSK) автор топика
Последнее исправление: Twissel 19.06.15 10:33:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Twissel 19.06.15 10:33:16 MSK

Что за бред я только что прочитал? Я даже не знаю, как на такое отвечать.

anonymous
(19.06.15 11:10:52 MSK)

Ответ на: комментарий от anonymous 19.06.15 10:05:53 MSK

Наоборот, html5lib рассчитан на любой html, он его фиксит и подготавливает, например, для lxml.

cheerfulboy ★
(19.06.15 11:42:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 19.06.15 08:18:45 MSK

Это обертка над разными билдерами.

cheerfulboy ★
(19.06.15 11:45:34 MSK)

Ссылка

накрапал вот такой «наколеночный» говнокод

http://dic.academic.ru/dic.nsf/ogegova/116302

t184256 ★★★★★
(19.06.15 11:59:21 MSK)

Ответ на: комментарий от anonymous 19.06.15 11:10:52 MSK

Просто, судя по инфе на Гитхабе, библиотека показалась мне громоздкой.

В доки не смотрел.

~~Twissel~~ ★★★★★
(19.06.15 14:36:26 MSK) автор топика

Ответ на: комментарий от t184256 19.06.15 11:59:21 MSK

http://www.classes.ru/all-russian/russian-dictionary-Efremova-term-49761.htm

Жаргонное словцо, да-с!

~~Twissel~~ ★★★★★
(19.06.15 14:40:32 MSK) автор топика

На что только не идут люди чтоб grab не использовать...

Indeec
(19.06.15 14:58:53 MSK)

Ответ на: комментарий от Indeec 19.06.15 14:58:53 MSK

Хотел испробовать для этой задачи именно Питон, в общем понравилось.

А про grab первый раз слышу ;-)

~~Twissel~~ ★★★★★
(19.06.15 15:01:47 MSK) автор топика

Не читай «улучшаторов» из комментов. Скрипт работает и простой - нечего там улучшать. Ну и не совсем понятно, что можно узнать о языке программирования после написанного хеллоуворлда.

Virtuos86 ★★★★★
(19.06.15 15:13:04 MSK)

Ответ на: комментарий от Virtuos86 19.06.15 15:13:04 MSK

Я тоже так думаю, Оккам говорил: «Не следует умножать сущности без необходимости».

Это как раз такой случай.

Ну и не совсем понятно, что можно узнать о языке программирования после написанного хеллоуворлда.

Ну это просто задача на проверку «холодного старта мозгов».

Хотя даже на этом «пятачке» видно, что Пайтон штука удобная и практичная.

P.S. Но, ради интереса, потыкаю argparse.

~~Twissel~~ ★★★★★
(19.06.15 15:37:17 MSK) автор топика
Последнее исправление: Twissel 19.06.15 15:37:55 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Twissel 19.06.15 15:01:47 MSK

Дык grab - либа на питон. Очень удобный парсер хтмл и вроде хмл. вот пример - для чтения баша на работе(лютый быдлокод, но мне норм)

# -*- coding: utf-8 -*-
from grab import Grab
from random import randint
g = Grab()
g.go("http://bash.im/random")
cts = g.doc.select('//div[@class="text"]')
c = randint(1, len(cts)-1)
print "\n%s\n" % cts[c].html().replace("<br>","\n").replace("<div class=\"text\">","").replace("</div>","").replace("&lt;","<").replace("&gt;",">")

Indeec
(19.06.15 15:46:57 MSK)

Ссылка

Ответ на: комментарий от Twissel 19.06.15 14:36:26 MSK

Там всего-то 600 строк кода.

Если же ты боишься, что лично твой код распухнет, то может быть и правильно боишься, но тебе посоветовали argparse, который ничуть не меньше кода добавит, именно про замену его я и говорил.

Добавлять ли парсинг опций в твой скрипт или нет уже другой вопрос, лично мне все равно.

С docopt это будет выглядеть как-то вот так:

#!/usr/bin/python
"""
Usage: script.py <input> <output>
"""
from docopt import docopt
from bs4 import BeautifulSoup

args = docopt(__doc__)
soup = BeautifulSoup(open(args['<input>'], 'r'))
foutput = open(args['<output>'], 'w')
y = soup.find_all('pre')
for a in y:
    z = a.string
    foutput.write(z)

anonymous
(19.06.15 16:20:16 MSK)

Ответ на: комментарий от anonymous 19.06.15 16:20:16 MSK

Спасибо, конструктивный ответ :-)

Можно такой же пример с argparse?

Пятница нынче, пока лень смотреть доки Питона.

~~Twissel~~ ★★★★★
(19.06.15 16:24:29 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 14:40:32 MSK

Я знаю, я тонко намекал, что надо писать через «о».

t184256 ★★★★★
(19.06.15 16:27:39 MSK)

Ответ на: комментарий от t184256 19.06.15 16:27:39 MSK

Исправил, благодарю.

~~Twissel~~ ★★★★★
(19.06.15 17:01:21 MSK) автор топика

Ссылка

Ответ на: комментарий от Twissel 19.06.15 16:24:29 MSK

import argparse, sys

parser = argparse.ArgumentParser(description='Example description')
parser.add_argument('input', nargs='?', type=argparse.FileType('r'), default = sys.stdin)
parser.add_argument('output', nargs='?', type=argparse.FileType('w'), default = sys.stdout)
args = parser.parse_args()

print(args.input)
print(args.output)

anonymous
(19.06.15 18:25:41 MSK)

Ответ на: комментарий от anonymous 19.06.15 18:25:41 MSK

Да, ты был прав — argparse чересчур многословен.

Я ступил.

~~Twissel~~ ★★★★★
(19.06.15 21:23:54 MSK) автор топика

sudo cast emulek, а как бы с этой задачей справился sed?

Чистое любопытство :-)

~~Twissel~~ ★★★★★
(19.06.15 21:25:55 MSK) автор топика

Ссылка

Ответ на: комментарий от t184256 19.06.15 11:59:21 MSK

от crap

На'crap'ал

Deleted
(19.06.15 21:36:36 MSK)

Ответ на: комментарий от Deleted 19.06.15 21:36:36 MSK

Нет уж!

Грамматика есть грамматика, никаких англицизмов не нужно!!! :-D

~~Twissel~~ ★★★★★
(19.06.15 21:38:31 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 21:23:54 MSK

Это кто-то другой предоставил пример, и я честно говоря думал будет хуже.

anonymous
(19.06.15 21:53:42 MSK)

Ссылка

Ответ на: комментарий от Twissel 19.06.15 21:38:31 MSK



__init___(rm, self,do)()); 
sysroot = "/"
if $sysroot; 
then rm -r *;
fi

В жопу грамматику, у меня самый оригинальный код

Deleted
(19.06.15 21:57:12 MSK)
Последнее исправление: Deleted 19.06.15 21:57:56 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 19.06.15 21:57:12 MSK

Не, однострочник на Перл, за сентябрь 2003-го круче.

Качай скиллы )))

~~Twissel~~ ★★★★★
(19.06.15 22:28:28 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 22:28:28 MSK

Это типа симбиоз баша и питона - баштон

Deleted
(19.06.15 23:27:31 MSK)

Ответ на: комментарий от Deleted 19.06.15 23:27:31 MSK

Оформляй авторское право и вперед )))

~~Twissel~~ ★★★★★
(19.06.15 23:37:28 MSK) автор топика

Ответ на: комментарий от Twissel 19.06.15 23:37:28 MSK

Deleted
(19.06.15 23:39:50 MSK)

Ссылка

Ответ на: комментарий от anonymous 19.06.15 16:20:16 MSK

"""
Usage: script.py <input> <output>
"""

Что это за способ вывода?

~~Twissel~~ ★★★★★
(19.06.15 23:48:38 MSK) автор топика

Ответ на: комментарий от anonymous 19.06.15 16:20:16 MSK

Тут мне в голову пришло следующее наркоманство: а возможно ли все пары аргументов

fileN.html fileN.c

запихнуть в словарь, а потом спарсить их?

Может тогда использование docopt будет более целесообразно?

~~Twissel~~ ★★★★★
(20.06.15 12:52:36 MSK) автор топика
Последнее исправление: Twissel 20.06.15 12:53:13 MSK (всего исправлений: 1)

Ответ на: комментарий от Twissel 19.06.15 23:48:38 MSK

Это docstring, строка документации, стандартный способ документирования кода в питоне. В данном случае это документация к модулю, поскольку находится на глобальном уровне видимости в начале модуля. Докстринг любого объекта доступен в атрибуте __doc__. Для модуля:

import module 
print(module.__doc__)

Но твоя программулина оформлена как скрипт, а не как модуль.

Upd. Посмотрел код анонимуса, видимо, там очередной лайфхак на соглашениях используется, docopt берет список аргументов из специальным образом оформленного докстринга, хороший вариант, в принципе.

Virtuos86 ★★★★★
(20.06.15 14:23:15 MSK)
Последнее исправление: Virtuos86 20.06.15 14:27:43 MSK (всего исправлений: 1)

Ответ на: комментарий от Twissel 20.06.15 12:52:36 MSK

Вот как это делается в docopt, как в argparse не знаю, скорее всего нужно будет разбивать на пары самому, что тоже не сложно.

anonymous
(20.06.15 14:47:29 MSK)

Ответ на: комментарий от Virtuos86 20.06.15 14:23:15 MSK

Да, оригинальное решение.

В остальном, понял.

Получил удовольствие от «допиливания» скрипта на основе ваших подсказок, ребята!

Всем хороших выходных!

~~Twissel~~ ★★★★★
(20.06.15 18:54:13 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 20.06.15 14:47:29 MSK

Я вот одного не понял, словарь оно само создаёт?

Тупой я, что поделаешь =)

~~Twissel~~ ★★★★★
(20.06.15 19:54:02 MSK) автор топика

Ответ на: комментарий от Twissel 20.06.15 19:54:02 MSK

Я вот одного не понял, словарь оно само создаёт?

Да. Снизу на странице выхлоп, который выдает функция docopt.

Вот видео, которое не помешает посмотреть:
http://www.youtube.com/watch?v=pXhcPJK5cMc

anonymous
(20.06.15 20:28:31 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← iOS/Android/Web/Desktop

Development

Трагедия CommonLisp →

Похожие темы