Как указать количество потоков / процессов для планировщика dask по умолчанию
есть ли способ ограничить количество ядер, используемых планировщиком по умолчанию (по умолчанию при использовании фреймов данных dask)?
С compute
, вы можете указать его, используя:
df.compute(get=dask.threaded.get, num_workers=20)
но мне было интересно, есть ли способ установить это по умолчанию, поэтому вам не нужно указывать это для каждого compute
звонок?
было бы интересно, например, в случае небольшого кластера (например, 64 ядра), но который совместно используется с другими людьми (без работы system), и я не хочу обязательно брать все ядра при запуске вычислений с помощью dask.
1 ответов
вы можете указать ThreadPool по умолчанию
from multiprocessing.pool import ThreadPool
import dask
dask.set_options(pool=ThreadPool(20))