python докачка файла при обрыве коннекта

0

2

Привет, ЛОР!

Пишу скриптик на python, одна из функций которого - скачать файл. Файл большой, 2.5Гб. Вот кусок кода, который его качает:

local_file = urllib.URLopener()
local_file.retrieve(url, filename, reporthook=print_download_progress)
print(". Загрузка успешно окончена!\n")

Однако, иногда сервер разрывает соединение, и я получаю вот что:

Загружено: 39%, 1077960704 байтTraceback (most recent call last):
  File "/home/kir/PycharmProjects/Updater/main.py", line 156, in <module>
    if update_file(name):
  File "/home/kir/PycharmProjects/Updater/main.py", line 122, in update_file
    local_file.retrieve(url, filename, reporthook=print_download_progress)
  File "/usr/lib/python2.7/urllib.py", line 284, in retrieve
    "of %i bytes" % (read, size), result)
urllib.ContentTooShortError: retrieval incomplete: got only 1077955321 out of 2726195712 bytes

ЛОР, как организовать докачку файла?

local_file = urllib.URLopener()
try:
    local_file.retrieve(url, filename, reporthook=print_download_progress)
    print(". Загрузка успешно окончена!\n")
except urllib.ContentTooShortError:
    #тут код докачки файла с места обрыва

Ссылка

← Почему first-class продолжения есть только в scheme?

IDE для Python или почему никто не предлагает Spyder? →

Range?

neversleep ★★★
(04.11.14 17:34:03 MSK)

Ссылка

Я не знаю, как это делалось в питоне 2, но в питоне 3.4 urllib.request.Request позволяет указывать заголовки запроса. В том числе Range.

proud_anon ★★★★★
(04.11.14 17:47:28 MSK)

Ссылка

google://python+urllib+resume+download

true_admin ★★★★★
(04.11.14 20:27:55 MSK)

Ссылка

Господа neversleep, proud_anon, true_admin! Большое спасибо за подсказку, переписал функцию вот на такую:

req = urllib2.Request(url)
u = urllib2.urlopen(req)
meta = u.info()
f = open(name, 'wb')
file_size = int(meta.getheaders("Content-Length")[0])

file_size_dl = 0
block_sz = 8192
while True:
    buffer = u.read(block_sz)
    if not buffer and file_size_dl < file_size:
        print("\n\nO-la-la! Гадкий сервер сбросил соединение. Возобновляю загрузку.\n\n")
        req.headers["Range"] = "bytes=%s-%s" %(file_size_dl, file_size)
        u = urllib2.urlopen(req)
    elif not buffer:
        break

    file_size_dl += len(buffer)
    f.write(buffer)

    sys.stdout.write("\rЗагружено: %3.2f%%, %d байт" % (file_size_dl * 100. / file_size, file_size_dl))
    sys.stdout.flush()

f.close()

На выходе получаю вот что:

Размер файла на сервере: 2726195712 байт
Загружено: 39.60%, 1079537672 байт

O-la-la! Гадкий сервер сбросил соединение. Возобновляю загрузку.


Загружено: 100.00%, 2726195712 байт
Размер файла на диске: 2726195712 байт

Проверяем корректность загрузки: 


Файл успешно обновлен!



Process finished with exit code 0

Еще раз, большое вам спасибо!

kir64 ★★
(04.11.14 21:24:28 MSK) автор топика

Ответ на: комментарий от kir64 04.11.14 21:24:28 MSK

А ты проверял, после скачивание md5 сходится? block_sz смело можешь делать раз в 10 больше. Вот мой многопоточный вариант на скорую руку который качает в много потоков и умеет докачку: https://github.com/kopchik/pdl

Я тоже не проверяю на эксепшены что гарантирует проблемы.

true_admin ★★★★★
(05.11.14 00:59:26 MSK)

Ответ на: комментарий от true_admin 05.11.14 00:59:26 MSK

md5 не проверяю, только сравниваю размер файла на диске и файла на сервере.

За ссылку на ~~Porn~~ Parallel DownLoader спасибо, изучу, что-то наверняка позаимствую.

Обработку исключений типа ответа сервера «404» или таймаута подключения буду прикручивать на стадии тестирования, сейчас основную логику бы написать. Это моё второе поделие на питоне, так что дается оно не очень легко.

kir64 ★★
(05.11.14 07:37:01 MSK) автор топика

Ответ на: комментарий от kir64 05.11.14 07:37:01 MSK

Проверь MD5 один раз при докачке. Чтобы убедиться что докачка работает как надо. Там арифметика простая, но off-by-one ошибки у меня были и файлы скачивались битыми. Не хочу чтобы у тебя тоже такие проблемы были.

true_admin ★★★★★
(05.11.14 21:04:00 MSK)