找回密码
 立即注册
搜索
查看: 8|回复: 0

想深入了解AI平台?这里有2020年第一文的详细介绍

[复制链接]

6351

主题

0

回帖

1万

积分

管理员

积分
19125
发表于 4 天前 | 显示全部楼层 |阅读模式
AI平台的根本目标始终在于提升开发者的工作效率,并缩短算法更新的周期。通过将AI技术产品化,使得运营人员能够更加深入地接触技术,从而更有效地指导并增强业务场景的应用,为客户带来更为优质的技术和产品体验。

本文于2020年首度正式发布,对人工智能领域的深度学习平台进行了详细介绍,涵盖了平台的基本概述、系统结构、技术挑战以及其具备的功能。

接下来,我们将以作者自建的商品模型训练平台为例,展开交流,涉及的设计经验包括:业务应用场景的阐述、训练平台系统架构的布局、数据与模型中心的构建、投入产出比的分析以及总结性论述。

一、关于AI平台 1.1 AI平台介绍

AI模型训练系统,根据其核心组件和应用领域的差异,亦被称作深度学习系统、机器学习系统或人工智能系统(以下统称为AI系统)。

AI平台涵盖了从业务到产品、从数据到模型、以及端到端的全方位解决方案,并且提供线上化的人工智能应用服务。

用户在AI平台上得以运用多样化的深度学习工具进行大规模的实验,对数据集与模型实施有效管理并不断优化,并且能够借助API接口和本地部署等多种途径,将其应用于实际的业务场景之中。

简而言之,AI平台是由AI SaaS、以及可选的PAAS和IAAS共同构成的。

以下是腾讯DI-X和阿里PAI平台的介绍:

DI-X(数据X)依托于腾讯云卓越的计算实力,打造了一个全方位的深度学习平台。该平台采用直观的拖拽式布局,能够灵活地整合各类数据资源、模块、算法、模型以及评估工具,为算法工程师与数据科学家提供了一个便捷的环境,以便他们能够高效地进行模型的训练、评估和预测工作。

阿里云的机器学习平台PAI,专为传统机器学习以及深度学习设计,涵盖了从数据加工处理、模型构建训练、服务部署到预测的全方位一站式解决方案。

借助AI平台,开发者可简化数据预处理及管理、模型训练与部署等复杂代码操作,从而提升算法开发速度,增强产品更新频率;同时,AI平台还能整合计算、数据、模型等资源,使用户能够高效地复用与调配这些资源。

开放AI平台之后,不仅能够促进商业化进程,还对企业在AI领域的业务生态环境产生了积极的推动作用和有益的反馈影响。

国内外相关的AI平台有:

国内:

国外:

1.2 AI平台系统架构

从企业整体系统架构的角度出发,AI平台可以被视为业务技术支撑的中台之一,它与数据中台处于同一层级。它扮演着连接上下(承接业务需求,与底层技术对接)的关键角色。

如果一个企业已经建立了数据中台,那么可以将该数据中台视为AI中台的数据输入与输出系统目标,同时AI中台充当业务前台所需的模型与算法供应平台。一旦业务前台产生对AI技术的需求,例如图像识别、语义分析、商品推荐等,算法运营团队便会依托AI平台对模型进行训练和更新,以确保需求的满足。

企业规模、资源状况以及业务应用场景各异,因此它们所采用的AI平台在定位上也会呈现出多样性。

AI与数据可以构建成统一的中台体系,其中,AI平台是业务中台不可或缺的组成部分,它也可以融入技术中台或后台系统。对于规模不大、资源相对匮乏的企业来说,它们往往倾向于选用第三方AI平台来提供业务支持,而不是自行搭建AI平台。

企业架构示例:AI平台作为AI中台

就AI平台的内部结构而言,不同第三方平台的设计模式基本一致,差异主要体现在技术层面,目前尚无深入研究的必要。

这里以京东神铸项目系统架构为例,初探一二:

平台架构图

基础设施层运用容器技术对算力资源进行整合,实现了资源的统一管理、合理分配、任务执行和状态跟踪等功能。该平台集成了MySQL、Redis、MQ等多样化的中间件服务。通过数据标注、模型训练和模型发布等环节,构建了个性化的AI能力,为不同行业的业务运营提供了强有力的技术支持。

1.3 AI平台实现难点

1)大数据处理问题

在目前这个时期,人工智能的基础技术原理使得“数据量的大小直接影响到模型性能的高低”。与此同时,企业在日常运营过程中持续生成新的数据。

在数据需求庞大且客观数据量极为丰富的背景下,对于任何AI平台而言,具备高效的大数据管理及处理能力至关重要。开发人员必须针对AI模型训练任务精心设计数据调度策略,并且对数据进行全生命周期的维护,包括但不限于定期清除冗余和不规范的数据。

2)分布式计算

数据处理和模型训练过程资源消耗巨大。在业务场景较为复杂、模型训练周期较长或样本数量庞大,以至于超出单台服务器处理能力的情况下,必须采用分布式训练模式。

微博深度学习训练集群的解决方式是:



以分布式运行方式为例进行说明,如图5所示。

一个分布式程序与一个抽象的集群相对应,该集群由执行具体计算任务的工作节点以及负责参数汇总的参数服务器构成。工作节点负责执行矩阵乘法、向量加法等计算,并计算出相应的参数(包括偏置),然后将这些参数汇总至参数服务器;参数服务器则负责收集来自各个工作节点的参数汇总,进行计算,并将结果传递回相应的工作节点,以便其进行下一轮的计算,这一过程循环进行。

3)AI平台实现的最大瓶颈

这涉及到企业对于AI平台投资回报率的考量,包括高层、中层以及执行层对AI平台价值的理解,这一点将在后续内容中详细阐述。

1.4 AI平台相关能力

AI平台不仅要涵盖AI开发流程的基础技能,还要根据不同用户群体(如产品经理、运营人员、算法工程师等)以及不同客户类型(包括大企业、中小企业、传统企业、科技企业等),提供相应的定制化服务。

我将AI平台能力分为以下五类:

华为平台技能

二、AI商品模型训练平台设计经验分享 2.1 业务场景

在日复一日的商业运营中,每一款新品都必须经历数据搜集与标记的环节,然后把这些数据输入相应的模型文件进行学习,这一过程中充满了大量重复而繁杂的任务。

将数据采集与处理过程纳入到模型训练及部署的标准化流程中,这有助于显著提高开发速度,同时使得运维团队与算法专家能够更高效地分别对应用场景和模型进行优化与维护。

而且,对于企业而言,数据和模型(包括可在线使用的类型)构成了至关重要的技术资产。然而,在初期阶段,这些资源往往处于一种神秘的“黑匣子”状态,只有算法专家能够接触和审视。因此,当企业业务发展到一定阶段,便有必要着手对这些资源实施有效的管理。

本平台专注于为零售业提供商品模型训练服务,因此被命名为AI商品模型训练平台。

2.2 系统架构

从资源整合、场景应用、服务效能以及商业化等多个角度进行综合评估,该作者所构建的商品模型训练系统主要由数据中心与模型中心这两个核心模块构成。一方面,该平台能够以最少的开发资源满足现有业务对核心流程和定制化流程的需求;另一方面,它也为平台未来的功能扩展和商业化进程提供了便利。

AI商品模型训练平台

数据中心主要致力于满足三个核心数据管理业务需求,包括数据获取、数据加工以及数据评价。这些需求涵盖了数据集的获取与管理、数据增强、增强策略的配置、数据的标注、标注任务的系统化处理以及半自动化的标注等多个方面的能力。

模型中心主要针对以下三个方面满足模型管理业务需求:模型训练与验证、模型管理以及模型部署。这些需求涵盖了模型训练、参数设置、训练任务管理、训练状态的可视化展示、模型文件及版本的管理、模型状态的监控、模型操作、模型处理以及处理策略的配置、模型的部署实施以及部署业务的管理等能力。

接下来,针对核心的业务需求逐一说明解决方案。

2.3 数据中心

2.3.1 数据获取

AI模型训练的首要环节涉及对数据的搜集,而这些数据特指图像资料。

数据收集可采取线下搭建符合业务需求的环境进行拍摄,或利用平台内现有的数据资源(包括线上数据和历史数据)、以及通过开源获取、付费购买、或使用爬虫技术等多种方式取得的第三方数据。

由于数据集均为图像资料,并且模型系采用深度学习技术所构建,因此在此阶段,数据预处理、特征提取等环节的处理工作可以暂时省略。随着业务需求和技术应用的不断延伸,我们将在技术框架和平台架构上逐步完善相应的功能。

数据集获取成功后,我们可将数据分门别类地储存,并可通过数据集管理界面进行相应的管理操作。

数据类型可以按照不同的维度区分:

1)以标品和非标品区分

2)以数据来源渠道区分

3)以数据格式区分

图片、视频、其他格式(2d、3d)。

4)以数据使用性区分

基础数据集、用于训练的数据集(包括标注信息)、验证数据集、异常数据集以及用户定义的数据集。

数据集需实施生命周期管理,并附上相应的备注,以防止数据在运营过程中变得混乱和重复。

2.3.2 数据处理



在进行特定场景的模型训练之前,必须对原始数据进行多样化程度和策略的强化处理。操作人员或技术人员可在数据增强界面中挑选适当的数据集及增强方法,对数据进行相应的强化。经过增强的数据集将以原数据子文件的形式,在数据集管理模块中以“增强数据集”这一类别进行展示。

为了满足不同业务需求并提升数据增强实验的效率,可以运用既有的数据增强技术,构建出多样化的数据增强策略。例如:

数据集资源整合工作一旦完成,平台便具备了数据标注的功能。运营团队不仅能够对平台现有的数据集进行标注,还能导入新的数据集文件进行标注处理。

通常标注工作有:

对未经标注的基本数据集实施标注或半标注处理(具体而言,采用半自动标注方法,即借助少量数据集生成的模型进行自动标注,以此减轻人工标注的负担);针对异常数据集进行重新标准化;对用户定义的数据集执行标注操作。

图像分类、方形框、圆形框、多边形框、语义分割以及3D标注等多种标注方式均得到支持。标注对象包括标品和非标品,以及如手、人脸等额外的信息内容。

2.3.3 数据评估

数据评估活动涵盖了从数据采集至数据处理的整个流程,其执行水准与流程的严谨性直接影响到数据质量的优劣,进而间接决定了模型性能的优劣。

在收集数据并对其进行优化处理的过程中,运营人员会依据既定规则与过往经验对数据的适用性进行判断,若遇到难以确定的情形,则会向算法寻求帮助。通常,对于不确定数据的判定标准会综合考虑商品特性、现有模型、具体需求、算法的理解能力以及个人经验等多种要素,由于不确定性较高,在实际操作中,人们往往更倾向于依赖个人经验来做出决策。这部分内容伴随着相关员工经验的积累和认知的提升,无疑拥有着显著的改进潜力。

日常工作中,我们必须对现有数据集进行周期性的审查和量化评估,以确保数据与标注的准确性。此外,对标注流程的规范化管理,涵盖任务分配、完成的严格审查、标注员的工作效率与错误数据统计,以及相应的奖惩体系,同样是确保数据质量的关键步骤。

2.4 模型中心

2.4.1 模型训练和验证

一旦数据供应充足,运营团队或算法工程师便可在模型训练界面挑选合适的模型,挑选相应的数据集和相应的训练设置(包括AI算法类型、网络深度以及训练步数等),随后便可启动模型的增量或全面训练过程。

在考虑GPU服务器运算需求等因素时,可以选择相应的训练GPU服务器。在训练阶段,通过可视化手段展示训练状态,有助于运营人员掌握训练任务的进展情况,从而对训练过程中损失度不再下降或其他异常情况采取暂停或取消等措施,从而释放算法人员的创造力。

界面

模型训练一旦完成,便可以对所用的训练集数据进行深入分析,从而计算出模型的MAP、精确率以及召回率等关键指标,以此对模型的效果与品质进行综合评估;同时,我们还可以利用该模型对尚未标注的验证数据集进行识别测试,以此进一步核实模型的整体质量。

2.4.2 模型管理

模型资源起初可从外部文件导入,亦或通过启动新的训练任务来创建。

一般来说,模型在大多数情况下都处于被使用中(无论是线上运行还是更新过程中),因此,对模型的管理工作主要集中在四个关键方面:首先是模型的不同版本,其次是模型的各种状态(包括服务状态和训练状态),接着是模型的操作历史记录,最后是模型的详细信息与参数设置。

当模型遭遇优化升级、更换或出现异常状况时,通过“模型管理”功能,我们能够执行一系列操作,包括但不限于暂停模型服务、复制模型文件、将模型部署上线以及删除模型等。

某些模型可能需在特定业务环境中运作,比如在边缘节点、硬件资源受限或网络延迟较大的情况下,因此,针对此类情况,我们需制定一套对模型进行压缩和优化等简易的一键式处理方案,其目的在于减轻开发者繁琐的工程负担。

2.4.3 模型部署

训练完毕模型并经过相应的验证之后,便可以在“模型部署”环节将模型投入实际应用,进行上线操作。这一部署过程通常是从灰度部署开始,逐步过渡至全量部署。

在边缘端应用场景中,还可以通过定期向边缘端请求更新模型文件,或者借助边缘节点来完成边缘端的部署任务。

2.5 AI平台投产比权衡

上文指出,AI平台在发展过程中遭遇的最大难题,实际上在于企业对于平台投入产出比率的考量。

作者团队在经过反复讨论和深思熟虑后,共同解答了以下三个关键问题,这才下定决心启动对平台的1.0版本进行初步开发(此举主要是为了首先检验其功能效果)。

AI平台是否真的具备支撑业务的能力,其整体效率(包括开发效率与业务效率)能够实现多大的提升?在实施后,是否会出现未知的成本问题(例如,算法专家需投入大量时间向运营团队传授如何使用特定模型的训练功能)?我们是否能够用数字来衡量其价值?即便能够量化,是否还需要额外的开发与沟通成本?

目前多数业务已由第三方AI平台承接,我们能否先行借助这些平台对业务流程进行培育?在个性化数据方面,处理和训练工作是否依然能够通过人工开发的方式进行?

AI平台在商业上的潜在收益在短期内能否显现(鉴于其他企业因担忧数据安全隐患而不愿放心使用,并且对企业的知名度有极大依赖)?若在短期内无法显现其价值,那么在哪个时期有望得到体现?

在价值权衡的考量上并无统一的标准答案,各企业会根据自身的资源状况、业务特点等多重因素进行综合评估。同时,决策者和执行者对AI平台的理解也存在差异。因此,关键在于观察各企业经过讨论后得出的最佳投资回报率是否能够超过成本,从而决定是否开发AI平台。

总结

无论面对何种业务环境,AI平台的核心目标始终是提升开发速度,缩短算法更新周期。通过将AI技术产品化,使运营人员能更深入地接触技术,更有效地引导和增强业务应用,从而为客户带来更优质的科技感受和产品体验。

企业不仅从内部着手,对AI平台进行了全面优化,而且逐步对外拓展,实现平台的商业化运作。这样,它不仅为原本缺乏资源和资金以推动AI技术发展的外部客户提供了服务,同时也对互联网AI生态系统的成长产生了积极的促进作用。

AI平台的进步与运用,标志着AI技术在应用领域的重大突破,显示出技术逐渐走向商业化,更加接地气,更紧密地与业务层面相结合,同时也体现了企业能够以更高效的方式运用AI技术。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见科技】 ( 京ICP备20013102号-58 )

GMT+8, 2025-5-18 01:20 , Processed in 0.600265 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表