学习
实践
活动
专区
工具
TVP
写文章
专栏首页ShowMeAI研究中心图解来啦!机器学习工业部署最佳实践!10分钟上手机器学习部署与大规模扩展 ?
原创

图解来啦!机器学习工业部署最佳实践!10分钟上手机器学习部署与大规模扩展 ?

(福利推荐:你还在原价购买腾讯云服务器?现在腾讯云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/qcloud

腾讯云最新优惠活动来了:云产品限时1折,云服务器低至88元/年 ,点击这里立即抢购:9i0i.cn/qcloud,更有2860元代金券免费领取,付款直接抵现金用,点击这里立即领取:9i0i.cn/qcloudquan

如何快速部署机器学习模型?本文是机器学习工业部署的 best practice(最佳实践)!详细讲解了如何操作机器学习开源框架 BentoML,帮助研发团队轻松打包机器学习模型,并重现该模型以用于生产。


? 作者:韩信子@ShowMeAI ? 机器学习实战系列:https://www.showmeai.tech/tutorials/41 ? 深度学习实战系列:https://www.showmeai.tech/tutorials/42 ? 本文地址:https://www.showmeai.tech/article-detail/396 ? 声明:版权所有,转载请联系平台与作者并注明出处 ? 收藏ShowMeAI查看更多精彩内容

?BentoML 一个用于机器学习模型服务的开源框架,设计初衷是让数据科学和 DevOps(software development and IT operations)之间的衔接更顺畅。数据科学家更多的时候聚焦在模型的效果优化上,而对于模型部署和管理等开发工作涉及不多。借助 BentoMl 可以轻松打包使用任何 ML 框架训练的模型,并重现该模型以用于生产。

BentoML有以下优点:

  • 将 ML 模型转换为生产就绪的 API 非常简单
  • 高性能模型服务,并且全部使用 Python
  • 标准化模型打包和 ML 服务定义以简化部署
  • 支持所有主流的机器学习训练框架
  • 通过 Yatai 在 Kubernetes 上大规模部署和运行 ML 服务

在本篇内容中,ShowMeAI就带大家来详细了解一下 BentoML 和模型部署相关的知识和实践方法。

? 训练模型之后的工作

算法工程师完成针对业务场景的建模与调优之后,我们就需要进行后续上线部署工作。

  • 如果团队中的开发人员(例如后端或前端开发人员)想要使用它,他们需要需要封装好的服务接口 API 模式。
  • 如果 DevOps 团队想要管理模型的部署,则需要处理模型环境和各种依赖项。
  • 如果产品团队想要对模型进行压力测试或向客户展示它,那么 API 必须扩展到能支撑并发请求。

从构建 ML 模型到实际生产环境使用,有很多工作和注意点:

  • 多个 ML 框架的使用和支持
  • 创建 API 并以最低性能水平提供服务
  • 再现性和依赖性管理
  • API 文档
  • 监控、日志记录、指标等

下面ShowMeAI带大家来看看 BentoML 是如何支持所有这些需求的。

? BentoML 简介&核心思想

BentoML 是用于模型服务和部署的端到端解决方案。BentoML 将 ML 项目中需要的一切打包成一种称为 bento(便当)的分发格式(便当最初是一种日本午餐盒,里面装着一份由主菜和一些配菜组成的单份餐点)。

更准确地说,bento 是一个文件存档,其中包含模型训练的所有源代码、定义的API 、保存的二进制模型、数据文件、Dockerfile、依赖项和其他配置 。我们可以将这里的“便当”视为用于 ML 的 Docker 映像。

当 bento 构建完成后(下文会详细说明),你可以将它变成一个可以部署在云上的 Docker 镜像,或者使用 bentoctl(它依赖 Terraform) 将 bento 部署到任何云服务和基础设施上(例如 AWS Lambda 或 EC2、GCP Cloud Run、Azure functions等)。

? 模型版本化及存储

可以通过pip install bentoml命令安装 bentoml

安装后, bentoml命令已添加到您的 shell。

可以使用 BentoML 将模型保存在特定文件夹(称为模型存储)中。在下面的示例中,我们保存了一个在鸢尾花数据集上训练的 SVC 模型。

import bentoml

from sklearn import svm
from sklearn import datasets

# Load training data set
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Train the model
clf = svm.SVC(gamma='scale')
clf.fit(X, y)

# Save model to the BentoML local model store
saved_model = bentoml.sklearn.save_model("iris_clf", clf)
print(f"Model saved: {saved_model}")

# Model saved: Model(tag="iris_clf:hrcxybszzsm3khqa")

这会生成一个唯一的模型标签,我们可以获取相应的模型,如下图所示。

它还会创建一个以模型标签命名的文件夹。打开和查看此文件夹,会找到二进制文件和一个名为 model.yaml描述模型元数据。

? 创建推理服务(模型访问 API 化)

创建模型并将其保存在模型存储中后,您可以将其部署为可以请求的 API 。

在下面的示例中 ,用api当有效负载数据(Numpy Ndarray 类型)通过 HTTP POST 请求发送到 /classify路径进行访问。

 import numpy as np
 import bentoml
 from bentoml.io import NumpyNdarray
 
 iris_clf_runner = bentoml.sklearn.get("iris_clf:latest").to_runner()
 
 svc = bentoml.Service("iris_classifier", runners=[iris_clf_runner])
 
 @svc.api(input=NumpyNdarray(), output=NumpyNdarray())
 def classify(input_series: np.ndarray) -> np.ndarray:
     result = iris_clf_runner.predict.run(input_series)
     return result

接下来就可以通过使用以下命令运行服务来在本地提供模型:

bentoml serve service:svc --reload

上述命令会开启一个 HTTP 本地服务,我们可以使用 Python 请求该服务,代码如下:

import requests
 
requests.post(
  "http://127.0.0.1:3000/classify",
  headers={"content-type": "application/json"},
  data="[[5.9, 3, 5.1, 1.8]]"
).text
  
'[2]'

也可以通过界面访问和请求(在浏览器访问 http://localhost:3000) )

? 定制 bento “便当”

可以手动定制 bento “便当”,我们先创建一个名为bentofile.yaml的配置文件,它配置了 bento 的构建方式:包括元数据、列出有用的源代码并定义包列表。

service: "service:svc"  # Same as the argument passed to `bentoml serve`
labels:
   owner: bentoml-team
   stage: dev
include:
- "*.py"  # A pattern for matching which files to include in the bento
python:
   packages:  # Additional pip packages required by the service
   - scikit-learn
   - pandas

要构建打包便当,请在包含的文件夹中运行以下命令:

bentoml build

运行完成之后,如果我们查看“便当”并检查里面的内容,将看到以下文件夹结构,其中包含以下内容:

  • API的描述和架构
  • 构建 Docker 镜像所需的 Dockerfile
  • Python及环境依赖
  • 经过训练的模型及其元数据
  • 训练模型和定义 API 路由的源代码
  • bento 构建选项配置文件bentoml.yaml

? 打包 bento 为 Docker 镜像

创建便当后,您可以使用dockerize命令来构建镜像,BentoML 提供了这个简单的命令方便使用。具体操作如下:

bentoml containerize iris_classifier:latest

构建镜像后,您可以在系统上查看它:

这里的 Docker 镜像是独立的,用于在本地提供服务或将其部署到云中。

docker run -it --rm -p 3000:3000 iris_classifier:jclapisz2s6qyhqa serve --production

? 使用 Runners 扩展并行推理

借助于bentoml架构,可以独立运行处理器处理不同服务。也就是说,在预估阶段,我们的推理管道可以有任意数量的运行器,并且可以垂直扩展(通过分配更多 CPU)。每个runner也可以有特定的配置(RAM、CPU 与 GPU 等)。

在以下示例中,两个运行器(一个执行 OCR 任务,另一个执行文本分类)在输入图像上顺序运行。

import asyncio
import bentoml
import PIL.Image

import bentoml
from bentoml.io import Image, Text

transformers_runner = bentoml.transformers.get("sentiment_model:latest").to_runner()
ocr_runner = bentoml.easyocr.get("ocr_model:latest").to_runner()

svc = bentoml.Service("sentiment_analysis", runners=[transformers_runner, ocr_runner])

@svc.api(input=Image(),output=Text())
def classify(input: PIL.Image.Image) -> str:
    ocr_text = ocr_runner.run(input)
    return transformers_runner.run(ocr_text)

对于 runners 感兴趣的同学可以在 ?这查看官方的更多讲解.

? 自适应批处理

在机器学习中,批处理是很常见的处理模式,在批处理模式下,可以并行地进行数据处理,而非串行等待。它提高了性能和吞吐量并利用了加速硬件(我们都知道GPU就可以对向量化计算进行批量化处理)。

不过FastAPI、Flask 或 Django 等 Web 框架没有处理批处理的机制。但是 BentoML 为批处理提供了一个很好的解决方案。它是上图这样一个处理过程:

  • 多输入请求并行处理
  • 负载均衡器在worker之间分发请求(worker是 API 服务器的运行实例)
  • 每个worker将请求分发给负责推理的模型运行器
  • 每个运行器通过在延迟和吞吐量之间找到权衡来动态地将请求分批分组
  • runner对每个批次进行预测
  • 最后将批量预测拆分并作为单独的响应返回

要启用批处理,我们需要设置batchable参数为True。如下例:

bentoml.pytorch.save_model(
    name="mnist",
    model=model,
    signature={
        "__call__": {
            "batchable": True,
            "batch_dim": (0, 0),
        },
    },
)

对于批处理感兴趣的同学可以在 ?这查看官方的更多讲解.

? 并行推理

BentoML 的 runners 设计非常巧妙,我们可以根据需要组合它们,创建可自定义的推理图。在前面的示例中,我们观察了两个顺序运行的runner(任务顺序为 OCR -> 文本分类)。

下面示例中,可以看到运行器也可以通过异步请求并发运行。

import asyncio
import PIL.Image


import bentoml
from bentoml.io import Image, Text


preprocess_runner = bentoml.Runner(MyPreprocessRunnable)
model_a_runner = bentoml.xgboost.get('model_a:latest').to_runner()
model_b_runner = bentoml.pytorch.get('model_b:latest').to_runner()


svc = bentoml.Service('inference_graph_demo', runners=[
    preprocess_runner,
    model_a_runner,
    model_b_runner
])


@svc.api(input=Image(), output=Text())
async def predict(input_image: PIL.Image.Image) -> str:
    model_input = await preprocess_runner.async_run(input_image)


    results = await asyncio.gather(
        model_a_runner.async_run(model_input),
        model_b_runner.async_run(model_input),
    )


    return post_process(
        results[0], # model a result
        results[1], # model b result
    )

? 云端部署

BentoML 的“便当”的妙处在于,一旦完成构建,我们可以通过两种方式部署它:

  • ① 将 Docker 镜像推送和部署到云端
  • ② 通过使用由 BentoML 团队开发的 bentoctl 来部署

使用 bentoctl 有助于将构建的 bento 部署为云上的生产就绪 API 端点。它支持许多云提供商(AWS、GCS、Azure、Heroku)以及同一云提供商(AWS Lambda、EC2 等)中的多种服务。核心的部署步骤为:

  • 安装 BentoML
  • 安装 ?Terraform
  • 设置 AWS CLI 并完成配置(请参阅 ?安装指南
  • 安装 bentoctl ( pip install bentoctl)
  • 构建好 bento“便当”
  • 安装允许在 AWS Lambda 上部署的 aws-lambda 运算符(bentoctl 也支持其他运算符):bentoctl operator install aws-lambda
  • 通过运行生成部署文件 bentoctl init
  • 通过运行构建部署所需的镜像 bentoctl build
  • 通过运行 ? 部署到 Lambda bentoctl apply -f deployment_config.yaml

部署完成后,系统会提示您提供一个 API URL,我们可以请求该 URL 与模型进行交互。

? API 文档和交互式 UI

当部署 BentoML 服务或在本地提供服务时,可以访问 ?Swagger UI,借助它可以可视化 API 资源并与之交互。如下例,它根据 OpenAPI 规范生成的,非常方便后端和客户端调用服务使用。

参考资料

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 [email protected] 删除。

登录 后参与评论
0 条评论

相关文章

  • 大模型高效释放生产性能,Hugging Face开源Transformer扩展优化新库

    特斯拉、谷歌、微软、Facebook 等科技巨头有很多共同点,其中之一是:它们每天都会运行数十亿次 Transformer 模型预测。比如,Transforme...

    机器之心
  • 话AI、学实践、探未来,亚马逊云科技AI在线大会报名开启!

    Innovate 2021亚马逊云科技 AI 在线大会即将在 4 月 22 日举办。届时,亚马逊云科技大中华区产品部总经理顾凡,以及亚马逊云科技全球人工智能技术...

    AI科技大本营
  • 机器学习技术类书单推荐

    机器学习技术类书单推荐,共11本: 《机器学习》 《图解机器学习》 《机器学习实战》【有电子版】 《机器学习系统设计》【有电子版】 《Python机器学习基础教...

    小莹莹
  • 机器学习和云计算技术的数据未来

    机器学习和云计算技术在2019年仍然成为“热门话题”。随着技术的发展和进步,那些在机器学习和云计算采用方面不受重视的组织可能会发现自己落后于人。而人们在行业市场...

    静一
  • 精选腾讯技术干货200+篇,云加社区全年沙龙PPT免费下载!

    “看一看”推荐模型揭秘!微信团队提出实时Look-alike算法,解决推荐系统多样性问题;

    风间琉璃
  • 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    从Paddle Fluid v1.0以来,飞桨致力于打造更好的用户体验,趁着百度开发者大会,也为用户精心准备了一份大礼,在开发、训练及部署全流程上进行了全新升级...

    量子位
  • 主流的深度学习开源框架

    TensorFlow最初由谷歌的Machine Intelligence research organization 中Google Brain Team的研究...

    用户6021899
  • BAT专家解读:如何选出最合适的深度学习框架?

    对于不同学习阶段和不同岗位的开发者来说,什么样的深度学习框架才是适合自己的呢?为此,AI 前线邀请了来自BAT的深度学习框架专家解答这个疑问。

    新智元
  • WWW2022 最佳论文直播解读 | 大规模自动化图学习!

    来自北京大学DAIR实验室与腾讯TEG机器学习平台部Angel Graph团队共同完成的研究斩获WWW 2022唯一最佳学生论文奖(Best Student P...

    腾讯云开发者
  • 分享图灵深度学习的书单

    昨日,ACM宣布AI界有“深度学习三巨头”之称的Yoshua Bengio、Yann LeCun、Geoffrey Hinton共同获得了2018年的图灵奖,这...

    商业新知
  • 机器学习失败的6种原因,你中招了吗?

    一般来说,学习的过程通常意味着先犯错误以及选择错误的道路,然后再想明白如何在将来避免这些陷阱。机器学习也不例外。

    CDA数据分析师
  • vivo互联网机器学习平台的建设与实践

    随着广告和内容等推荐场景的扩展,算法模型也在不断演进迭代中。业务的不断增长,模型的训练、产出迫切需要进行平台化管理。vivo互联网机器学习平台主要业务场景包括游...

    2020labs小助手
  • 腾实学院联手深信息,校企“双元”建设职业教育AI系列教材

    当前,随着全球新一轮科技革命和产业变革加速,人工智能成为国家重要战略,但人才紧缺、学校课程设置与产业需求脱节等人才培养痛点日益突出。在此背景下,如何去完善人才培...

    腾讯智慧教育
  • 开发者成功使用机器学习的十大诀窍

    用户1737318
  • WWW 2022最佳论文出炉:北京大学团队获唯一最佳学生论文奖

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:E...

    计算机视觉研究院
  • 在LinkedIn上搭建机器学习模型

    大规模的构建机器学习是一条充满挑战的道路,并且没有很多有详细记录的case可以作为参考。Invector Labs的团队最近发布了一个幻灯片,它总结了我们学习大...

    liuxuewen
  • AI 迈进深水区,谈落地、谁能带来新解法? | 2022雷峰网「产业科技 · 最具商用价值榜」

    技术发展是一个持续叠进的过程,AI 也是如此。 经历过去 70 年的“三起两落”,近年来,人工智能行业迈进深水期,分工细化,产业落地成为主旋律,AI 与各个场景...

    AI科技评论
  • 【预约中】腾讯云中 Elastic Stack 的 Beats 部署最佳实践

    有效的使用 Elastic Stack 提供的各种 Beats 模块,可以让我们彻底的终结在服务器上手工捞日志的坑。合理利用腾讯云提供的 Elasticsear...

    可可爱爱没有脑袋

扫码关注腾讯云开发者

领取腾讯云代金券


http://www.vxiaotou.com