Python: HTTP Post большой файл с потоковой передачей
я загружаю потенциально большие файлы на веб-сервер. В настоящее время я делаю это:
import urllib2
f = open('somelargefile.zip','rb')
request = urllib2.Request(url,f.read())
request.add_header("Content-Type", "application/zip")
response = urllib2.urlopen(request)
однако это считывает все содержимое файла в память перед его отправкой. Как я могу передать файл на сервер?
6 ответов
прочитав поток списка рассылки, связанный с systempuntoout, я нашел ключ к решению.
на mmap
модуль позволяет открыть файл, который действует как строка. Части файла загружаются в память по требованию.
вот код, который я использую сейчас:
import urllib2
import mmap
# Open the file as a memory mapped string. Looks like a string, but
# actually accesses the file behind the scenes.
f = open('somelargefile.zip','rb')
mmapped_file_as_string = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
# Do the request
request = urllib2.Request(url, mmapped_file_as_string)
request.add_header("Content-Type", "application/zip")
response = urllib2.urlopen(request)
#close everything
mmapped_file_as_string.close()
f.close()
вы пробовали с механизировать?
from mechanize import Browser
br = Browser()
br.open(url)
br.form.add_file(open('largefile.zip'), 'application/zip', 'largefile.zip')
br.submit()
или, если вы не хотите использовать multipart/form-data, проверьте этой старый пост.
Он предлагает два варианта:
1. Use mmap, Memory Mapped file object
2. Patch httplib.HTTPConnection.send
в документации не говорится, что вы можете это сделать, но код в urllib2 (и httplib) принимает любой объект с методом read() в качестве данных. Таким образом, использование открытого файла, кажется, делает трюк.
вам нужно будет установить заголовок Content-Length самостоятельно. Если он не установлен, urllib2 вызовет len () для данных, которые не поддерживаются файловыми объектами.
import os.path
import urllib2
data = open(filename, 'r')
headers = { 'Content-Length' : os.path.getsize(filename) }
response = urllib2.urlopen(url, data, headers)
Это соответствующий код, который обрабатывает данные, которые вы предоставляете. Это из HTTPConnection
класс httplib.py
в Python 2.7:
def send(self, data):
"""Send `data' to the server."""
if self.sock is None:
if self.auto_open:
self.connect()
else:
raise NotConnected()
if self.debuglevel > 0:
print "send:", repr(data)
blocksize = 8192
if hasattr(data,'read') and not isinstance(data, array):
if self.debuglevel > 0: print "sendIng a read()able"
datablock = data.read(blocksize)
while datablock:
self.sock.sendall(datablock)
datablock = data.read(blocksize)
else:
self.sock.sendall(data)
попробовать pycurl из. У меня нет ничего setup примет большой файл, который не в сообщении multipart / form-data, но вот простой пример, который читает файл по мере необходимости.
import os
import pycurl
class FileReader:
def __init__(self, fp):
self.fp = fp
def read_callback(self, size):
return self.fp.read(size)
c = pycurl.Curl()
c.setopt(pycurl.URL, url)
c.setopt(pycurl.UPLOAD, 1)
c.setopt(pycurl.READFUNCTION, FileReader(open(filename, 'rb')).read_callback)
filesize = os.path.getsize(filename)
c.setopt(pycurl.INFILESIZE, filesize)
c.perform()
c.close()
С помощью requests
библиотека вы можете сделать
with open('massive-body', 'rb') as f:
requests.post('http://some.url/streamed', data=f)
Как уже упоминалось здесь в их документы
Не могу (пока) прокомментировать ответ Брайанаhttps://stackoverflow.com/a/30810626/9921853
urllib2.urlopen (url, data, headers) не принимает заголовки в качестве параметра, поэтому он не будет работать
Ниже приведен рабочий пример для Python 2 / Python 3:
try:
from urllib2 import urlopen, Request
except:
from urllib.request import urlopen, Request
headers = { 'Content-length': str(os.path.getsize(filepath)) }
with open(filepath, 'rb') as f:
req = Request(url, data=f, headers=headers)
result = urlopen(req).read().decode()
модуль запросов отличный, но иногда вы не можете установить дополнительные модули...