您好,欢迎来到微智科技网。
搜索
您的当前位置:首页如何在 GPU 上进行海量数据流的 ETL 处理

如何在 GPU 上进行海量数据流的 ETL 处理

来源:微智科技网

为什么GPU适合做ETL

RAPIDS(科学计算体系)

RAPIDS提供cuDF cuIO(类似于pandas调用GPU)、cuML(回归与分类算法GPU计算)、cuGraph(计算图)、DeepLearning(GPU计算框架)、cuxfillter(可视化)五类应用方向。

ETL主要使用的也就是cuDF cuIO(GPU处理大数据。补充:Desk用于多台数据处理)。

cuDF技术栈

cuDF性能

cuIO

Desk

提供了GPU与GPU交互方式以及多机间的加速。

BATCH ETL流式处理

数据处理也越来越复杂,每一个处理流程成之为pipeline(多个Job),但不同的pipeline之间也有交差,适应用于计算需求。

Kafka是分布式数据处理平台,将用户端与数据处理后端隔离,由Kafka平台管理多个pipeline,更多为数据实时处理。

上图为流式处理格式信息

弹性处理、科学计算平台、分布式计算

三大件

STREAMZ

STREAMZ 用于管理pipeline,处理数据存储到Kafka.

cuStreamz


基于Streamz,提出用于GPU计算套件。

如何使用RAPIDS

总结

NVIDIA提出一种用于ETL(Extract-Transform-Load,数据仓储技术)计算的技术RAPIDS,优势在于使用具有大量多线程处理的GPU处理数据,较比于CPU性能有较大的提升;结合当下主流数据处理工具,并对流行的库进行使用迁移,方便用户使用。

参考:

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务