如何在 GPU 上进行海量数据流的 ETL 处理

来源：微智科技网

为什么GPU适合做ETL

RAPIDS提供cuDF cuIO（类似于pandas调用GPU）、cuML(回归与分类算法GPU计算)、cuGraph(计算图)、DeepLearning(GPU计算框架)、cuxfillter（可视化）五类应用方向。

ETL主要使用的也就是cuDF cuIO（GPU处理大数据。补充：Desk用于多台数据处理）。

提供了GPU与GPU交互方式以及多机间的加速。

数据处理也越来越复杂，每一个处理流程成之为pipeline（多个Job），但不同的pipeline之间也有交差，适应用于计算需求。

Kafka是分布式数据处理平台，将用户端与数据处理后端隔离，由Kafka平台管理多个pipeline，更多为数据实时处理。

上图为流式处理格式信息

STREAMZ 用于管理pipeline，处理数据存储到Kafka.

基于Streamz，提出用于GPU计算套件。

NVIDIA提出一种用于ETL(Extract-Transform-Load，数据仓储技术)计算的技术RAPIDS，优势在于使用具有大量多线程处理的GPU处理数据，较比于CPU性能有较大的提升；结合当下主流数据处理工具，并对流行的库进行使用迁移，方便用户使用。

参考：

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文