跳转至

AI Lab Release Notes

本页列出AI Lab各版本的 Release Notes,便于您了解各版本的演进路径和特性变化。

Note

标记为 [Beta] 的功能更新,在使用时请多注意,如遇问题请及时反馈。

2024-09-30

v0.9.0

Note

产品模块名称从 智能算力 升级为 AI Lab

功能

  • 新增 全新数据管理子模块 数据标注 ,可管理主流数据类型的数据标注能力。
  • 新增 全新模型管理子模块 模型列表 ,可快速创建模型,支持模型多版本管理。
  • 新增 数据集 创建时可指定使用 PVC 存储空间大小。
  • 新增 支持 训练任务 一键重启。
  • 新增 支持 使用 vGPU 资源时,可指定 GPU 卡类型。
  • 新增 baize-notebook 基础镜像升级到 v0.9.0。
  • 优化 支持 集群异常时,全局提醒同时保证数据可用。

2024-08-31

v0.8.0

功能

  • [Beta] 新增 支持 Notebook 运行中时,手工保存为镜像(依赖镜像仓库模块)。
  • [Beta] 新增 支持 Notebook 关闭时自动保存为镜像(依赖镜像仓库模块)。
  • 新增 支持 Notebook 镜像通过表单选择镜像仓库内的私有镜像。
  • 新增 支持 Notebook 配置 数据输入数据输出,可直接关联数据集。
  • 新增 支持 Notebook 配置以 Root 身份启动。
  • 新增 支持 训练任务 配置 数据输入数据输出,可直接关联数据集。
  • [Beta] 新增 支持 训练任务 支持配置 断点续训,自动检测任务故障后自动修复。
  • 新增 支持 训练任务 镜像通过表单选择镜像仓库内的私有镜像。
  • 新增 支持 训练任务 详情增加展示任务参数信息。
  • 新增 环境管理 可查询预热进度,并支持快速调试入口。
  • 新增 支持 推理任务 详情增加服务调用监控。
  • 新增 baize-notebook 基础镜像升级到 v0.8.0。

2024-07-31

v0.7.0

功能

  • 新增 支持 数据集 创建数据集后可查询预热进度,并支持快速调试入口。
  • 新增 支持 训练任务 创建 MxNet 单机和分布式任务。
  • 新增 支持 训练任务 创建 MPI 分布式任务。
  • 新增 支持 训练任务 支持默认镜像,统一使用基础镜像。
  • 新增 支持 训练任务 启动命令可直接配置启动脚本。
  • 新增 支持 训练任务 运行参数指定工作目录位置。
  • 新增 支持 推理任务 详情展示 API 调用示例文档。
  • 优化 环境管理 列表展示环境有的包管理器及 Python 版本。

2024-07-10

v0.6.1

修复

  • 修复 创建推理服务时,推理框架选择使用 Triton ,托管引擎缺少 vLLM 选项。

2024-06-30

v0.6.0

功能

  • 新增 支持 创建 Code 类型的 Notebook,提供原生 VS Code 开发体验。
  • 新增 支持 快速复制 Notebook
  • 新增 支持 在选择工作集群时,展示集群的状态信息,当失联或离线时不可选择。
  • 新增 支持 创建推理服务时,使用 vLLM 作为推理引擎,暴露原生 vLLM 能力。
  • 新增 支持 创建推理服务时,vLLM 支持配置 Lora 推理参数。
  • 优化 创建 Notebook 时,队列优先级默认值调整为

修复

  • 修复 Tensorboard 最小资源限制,避免因资源不足导致 Tensorboard 启动失败。
  • 修复 优化任务状态中文描述,避免因状态描述不清晰导致的误解。

2024-05-30

v0.5.0

功能

  • 新增 支持 baizectl 创建任务时同时增加 Tensorboard 分析看板。
  • 新增 支持 Job 绑定 环境管理 中创建的自定义环境。
  • 新增 优化 环境管理 中进行自定义环境配置更新、优化 Python 版本选择器等。
  • 新增 支持 推理服务 详情,查看模型运行时的资源监控看板。
  • 新增 支持 推理服务 绑定 环境管理 中创建的自定义环境。

修复

  • 修复 环境管理中少数情况下 Python 版本提示权限问题情况。
  • 修复 推理服务在异常时不支持停止的问题。

2024-04-30

v0.4.0

功能

  • 新增 Notebook 支持本地 SSH 访问,适配多种开发工具,如 PycharmVS Code 等。
  • 新增 升级 Notebook 镜像,支持内置 CLI 工具 baizectl,命令行提交和管理任务。
  • 新增 Notebook 增加亲和性调度策略配置。
  • 新增 分布式训练任务,可界面化配置 SHM size
  • 新增 训练任务一键重启功能。
  • 新增 模型训练任务支持自定义指定集群调度器。
  • 新增 训练任务分析工具 Tensorboard 支持,可在 Notebook 与训练任务中一键启动。
  • 新增 队列配额编辑时,提示当前工作空间的共享资源配置。
  • 新增 升级适配 Kueue 版本 v0.6.2

修复

  • 修复 Notebook CRD 偶现配置同步异常问题。
  • 修复 Notebook 亲和性配置参数查询接口未返回。

2024-04-01

v0.3.0

功能

  • 新增 发布 Notebook 模块,支持 Jupyter Notebook 等开发工具。
  • 新增 发布任务中心模块,支持多种主流开发框架 PytorchTensorflowPaddle 任务训练。
  • 新增 发布模型推理服务模块,支持快速部署 Model Serving,支持任意模型算法与大语言模型。
  • 新增 发布数据管理模块,支持接入 S3NFSHTTPGit 等主流数据源,并支持自动数据预热。

评论