Как указать количество потоков / процессов для планировщика dask по умолчанию

есть ли способ ограничить количество ядер, используемых планировщиком по умолчанию (по умолчанию при использовании фреймов данных dask)?

С compute, вы можете указать его, используя:

df.compute(get=dask.threaded.get, num_workers=20)

но мне было интересно, есть ли способ установить это по умолчанию, поэтому вам не нужно указывать это для каждого compute звонок?

было бы интересно, например, в случае небольшого кластера (например, 64 ядра), но который совместно используется с другими людьми (без работы system), и я не хочу обязательно брать все ядра при запуске вычислений с помощью dask.

1 ответов


вы можете указать ThreadPool по умолчанию

from multiprocessing.pool import ThreadPool
import dask
dask.set_options(pool=ThreadPool(20))