Что делать если гнездо.setdefaulttimeout () не работает?

Я пишу сценарий(многопоточный) для извлечения содержимого с веб-сайта, и сайт не очень стабилен, поэтому время от времени висит http-запрос, который даже не может быть тайм-аут socket.setdefaulttimeout(). Поскольку я не контролирую этот сайт, единственное, что я могу сделать, это улучшить свои коды, но у меня заканчиваются идеи прямо сейчас.

примеры кода:

socket.setdefaulttimeout(150)

MechBrowser = mechanize.Browser()
Header = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)'}
Url = "http://example.com"
Data = "Justatest=whatever&letstry=doit"
Request = urllib2.Request(Url, Data, Header)
Response = MechBrowser.open(Request)
Response.close()

что я должен сделать, чтобы заставить висячий запрос выйти? На самом деле я хочу знать, почему socket.setdefaulttimeout(150) is во-первых, не работает. Кто-нибудь может мне помочь?

добавлено: (и да проблема еще не решена)

хорошо, я последовал предложению Томаша и изменил коды на MechBrowser.open(Request, timeout = 60), но то же самое происходит. До сих пор у меня все еще висят запросы случайным образом, иногда это несколько часов, а иногда это может быть несколько дней. Что мне теперь делать? Есть ли способ заставить эти висячие просьбы уйти?

4 ответов


пока socket.setsocketimeout установит тайм-аут по умолчанию для новых сокетов, если вы не используете сокеты напрямую, настройка может быть легко перезаписана. В частности, если библиотека вызывает socket.setblocking на своем сокете он сбросит тайм-аут.

urllib2.open имеет аргумент тайм-аута, hovewer, нет тайм-аута в urllib2.Request. Как вы используете mechanize, вы должны обратиться к их документации:

начиная с Python 2.6, urllib2 использует a .атрибут timeout по запросу объекты внутри. Однако, urllib2.Запрос не имеет аргумента конструктора timeout и urllib2.urlopen () игнорирует этот параметр. механизировать.Запрос имеет аргумент конструктора timeout, который используется для установки атрибута с тем же именем и механизации.urlopen () не игнорирует атрибут timeout.

источник: http://wwwsearch.sourceforge.net/mechanize/documentation.html

---редактировать---

если socket.setsockettimeout или передача тайм-аута в mechanize работает с небольшими значениями, но не с более высокими, источник проблемы может быть совершенно другим. Одно дело, что ваша библиотека может открыть несколько соединений (здесь кредит @Cédric Julien), поэтому тайм-аут применяется к каждой попытке сокета.откройте, и если он не остановится на первом неудача-может занять до timeout * num_of_conn секунд. Другое дело,socket.recv: если соединение действительно медленное, и вам не повезло, весь запрос может занять до timeout * incoming_bytes С каждого socket.recv мы могли бы получить один байт, и каждый такой вызов мог взять timeout секунд. Поскольку вы вряд ли пострадаете именно от этого темного scenerio (один байт за тайм-аут секунд? вы должны быть очень грубым мальчиком), очень вероятно, что запрос займет возраст для очень медленных соединений и очень высоких таймауты.

единственное решение, которое у вас есть, - это принудительное время ожидания для всего запроса, но здесь нет ничего общего с сокетами. Если вы на Unix, вы можете использовать простое решение с ALARM сигнал. Вы устанавливаете сигнал, который будет поднят в timeout секунд, и ваш запрос будет расторгнут (не забудьте поймать его). Вы можете использовать with заявление, чтобы сделать его чистым и простым в использовании, например:

import signal, time

def request(arg):
  """Your http request"""
  time.sleep(2)
  return arg

class Timeout():
  """Timeout class using ALARM signal"""
  class Timeout(Exception): pass

  def __init__(self, sec):
    self.sec = sec

  def __enter__(self):
    signal.signal(signal.SIGALRM, self.raise_timeout)
    signal.alarm(self.sec)

  def __exit__(self, *args):
    signal.alarm(0) # disable alarm

  def raise_timeout(self, *args):
    raise Timeout.Timeout()

# Run block of code with timeouts
try:
  with Timeout(3):
    print request("Request 1")
  with Timeout(1):
    print request("Request 2")
except Timeout.Timeout:
  print "Timeout"

# Prints "Request 1" and "Timeout"

если хотите быть более портативным, чем это, вы должны используйте некоторые большие пушки, например multiprocessing, поэтому вы создадите процесс для вызова вашего запроса и завершите его, если он просрочен. Поскольку это будет отдельный процесс, вы должны использовать что-то для передачи результата обратно в приложение, это может быть multiprocessing.Pipe. Вот пример:

from multiprocessing import Process, Pipe
import time

def request(sleep, result):
  """Your http request example"""
  time.sleep(sleep)
  return result

class TimeoutWrapper():
  """Timeout wrapper using separate process"""
  def __init__(self, func, timeout):
    self.func = func
    self.timeout = timeout

  def __call__(self, *args, **kargs):
    """Run func with timeout"""
    def pmain(pipe, func, args, kargs):
      """Function to be called in separate process"""
      result = func(*args, **kargs) # call func with passed arguments
      pipe.send(result) # send result to pipe

    parent_pipe, child_pipe = Pipe() # Pipe for retrieving result of func
    p = Process(target=pmain, args=(child_pipe, self.func, args, kargs))
    p.start()
    p.join(self.timeout) # wait for prcoess to end

    if p.is_alive():
      p.terminate() # Timeout, kill
      return None # or raise exception if None is acceptable result
    else:          
      return parent_pipe.recv() # OK, get result

print TimeoutWrapper(request, 3)(1, "OK") # prints OK
print TimeoutWrapper(request, 1)(2, "Timeout") # prints None

у вас действительно нет выбора, если вы хотите заставить запрос завершиться через фиксированное количество секунд. socket.timeout обеспечит тайм-аут для одиночной деятельности гнезда (connect / recv / send), но если у вас их несколько, вы можете страдать от очень долгого времени выполнения.


из их документации:

начиная с Python 2.6, urllib2 использует a .атрибут timeout для объектов запроса внутренне. Однако, urllib2.Запрос не имеет конструктора timeout аргумент, и urllib2.urlopen () игнорирует этот параметр. механизировать.Запрос имеет аргумент конструктора timeout, который используется для установить атрибут с тем же именем, и механизировать.urlоткрыть() не игнорировать атрибут timeout.

Возможно, вам стоит попробовать заменить urllib2.Запрос с механизировать.Запрос.


вы можете попробовать использовать механизировать с помощью eventlet. Он не решает проблему тайм-аута, но greenlet не блокирует, поэтому он может решить вашу проблему производительности.


Я предлагаю простой обходной путь-переместите запрос в другой процесс, и если он не завершится, убейте его из вызывающего процесса, таким образом:

    checker = Process(target=yourFunction, args=(some_queue))
    timeout = 150
    checker.start()
    counter = 0
    while checker.is_alive() == True:
            time.sleep(1)
            counter += 1
            if counter > timeout :
                    print "Son process consumed too much run-time. Going to kill it!"
                    kill(checker.pid)
                    break

простой, быстрый и эффективный.