使用 Dask 在 Python 中进行并行计算

Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。

Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。

使用 Dask 在 Python 中进行并行计算

关于 Python 性能的一个常见抱怨是全局解释器锁(GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。

但当你需要并行化到多核时,你不需要放弃使用 Python:Dask 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展规模的限制,但一般达不到。

虽然 Dask 有许多内置的数组操作,但举一个非内置的例子,我们可以计算偏度

“`
import numpy
import dask
from dask import array as darray

arr = dask.fromarray(numpy.array(mydata), chunks=(1000,))
mean = darray.mean()
stddev = darray.std(arr)
unnormalized_moment = darry.mean(arr * arr * arr)

See formula in wikipedia:

skewness = ((unnormalized_moment – (3 * mean * stddev * 2) – mean * 3) /
stddev ** 3)
“`

请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。

当然,并不是我们所有的操作都可由这个库并行化,有时我们需要自己实现并行性。

为此,Dask 有一个“延迟”功能:

“`
import dask

def is_palindrome(s):
return s == s[::-1]

palindromes = [dask.delayed(ispalindrome)(s) for s in stringlist]
total = dask.delayed(sum)(palindromes)
result = total.compute()
“`

这将计算字符串是否是回文并返回回文的数量。

虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。


via: https://opensource.com/article/19/4/parallel-computation-python-dask

作者:Moshe Zadka (Community Moderator) 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

主题测试文章,只做测试使用。发布者:eason,转转请注明出处:https://aicodev.cn/2019/04/18/%e4%bd%bf%e7%94%a8-dask-%e5%9c%a8-python-%e4%b8%ad%e8%bf%9b%e8%a1%8c%e5%b9%b6%e8%a1%8c%e8%ae%a1%e7%ae%97/

(0)
eason的头像eason
上一篇 2019年4月18日
下一篇 2019年4月18日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信