人工智能存储平台如何满足机器学习和数据分析的需要
2019/12/19 13:48:08
根据机器学习和人工智能任务的执行方式以及如何在其环境中收集数据的方法,组织需要了解应该购买哪些人工智能存储产品。
当组织购买人工智能存储平台时,有很多途径可以遵循。但一个重要的目标应该是找到一种使其能够更有效地收集数据产品,以执行机器学习和人工智能任务。
评估和选择人工智能数据存储产品涉及的一些关键问题包括:
•存储平台须提供高性能和可扩展性,并有效管理成本。
•其性能须包括提供高吞吐量和实现低延迟。
•产生良好的人工智能模型意味着处理PB规模的数据,这可能导致高昂的成本。组织须意识到需要管理机器学习和人工智能平台的总体成本。
在深度学习中,机器学习算法可以在无监督的情况下运行,随着深度学习算法的连续层处理多个级别的数据分析,I/O配置文件会导致高度随机访问。机器学习和人工智能培训通常以批处理模式运行,在此模式下,数据科学家可以创建机器学习人工智能模型,针对数据进行测试,并随着时间推移完善模型。这种方法要求低延迟以确保快速执行,因为更短的模型测试时间意味着更多的迭代和更好的模型。
因此,组织选择的特定存储产品应基于其所做的工作类型以及所需的机器学习和人工智能培训。无论哪种情况,获得存储产品的性价比都会有一些折衷。
分层方法
在购买存储产品时,成本与性能是一个关键考虑因素。如果有这个选择,大多数组织都会购买速度尽可能快的存储设备。然而,获得更高性能需要付出更大的代价。通常,高性能系统不会扩展到数PB的范围内。加上假设随时分析的数据工作集将成为整个数据资产的子集,很容易看出存储分层是设计机器学习和人工智能数据存储的必要部分。
在机器学习和人工智能的背景下,分层到底意味着什么?传统的分层产品从固定存储池发展为复杂系统,根据使用频率和可用池容量优化单个存储块的位置。但是由于数据的处理方式,这种方法并不能很好地满足机器学习和人工智能的要求。
自动化分层产品假定数据经过对业务非常重要的生命周期。新的数据是非常重要的,并且将被频繁访问。随着时间的推移,数据的价值逐渐降低,它可以移动到成本更低、性能更低的产品存储中。
用于机器学习和人工智能分析的数据使不同的整个数据集变为活动状态并用于分析,同时需要在很多时候使用整个数据集。这意味着使用中的数据须位于性能一致的存储层上,因为访问中的很多变化都会影响模型训练等问题。
机器学习和人工智能模型开发中的数据处理的随机性,意味着试图随着时间动态重新平衡数据的反应性存储平台算法将不起作用。这些算法假设一个规模较小且相对静态的工作集,该工作集随时间的推移而逐渐变化。在机器学习和人工智能中,数据访问配置文件将更加随机,因此很难预测要缓存哪些数据以及如何调整缓存大小或更快的存储层。
两层存储模型
为机器学习和人工智能工作负载提供存储的一个简单方法是简单地使用两层模型。性能层提供尽可能多的性能和尽可能低的延迟,同时针对系统预期要处理的很大数据集进行调整。
高性能的闪存价格昂贵,并且随着市场向三级和四级单元之类的容量闪存产品发展,高性能存储产品出现了一个新市场,其中包括低延迟闪存产品,如三星Z-NAND和东芝XL闪存。这些产品补充了通过提供低延迟I/O来开发的存储级内存。例如,Vast Data同时使用四层单元和Intel Optane技术,为N结构和S3 API提供支持,为非结构化数据提供高性能、可扩展的存储产品。
这些第0层存储产品使用NVMe设备在内部或跨存储网络进行连接。与传统的SAS和SATA存储设备相比,NVMe优化了I/O堆栈或I/O协议。其结果是更低的延迟和更大的吞吐量,但是由于服务器处理器不需要等待I/
下一页
返回列表
返回首页
©2024 深度学习世界--关注深度学习应用,提供深度学习资料下载和技术交流 电脑版
Powered by iwms