JOTO
联系我们
首页 / 解决方案 / 阿里云 AI Stack
阿里云战略合作 · 软硬一体训推一体机

大模型训推软硬一体解决方案。基于阿里云 APG 服务器,单机 16 卡 1.5TB+ 超大显存,一台即可运行 DeepSeek-R1/V3 671B 与 Qwen3-235B 无损精度满血版,开机即用、数据不出域。JOTO 作为你的企业 AI 落地服务商,负责从选型、部署到集成、培训、运营的最后一公里。

联系我们 / 选型咨询看能落地哪些场景

以轻量化、高性价比的方式把最新开源大模型搬进你的机房,满足数据安全、成本效率与行业合规。

轻快好省

基于 APG 服务器,单机 2/4/8/16 卡灵活选择;16 卡提供 1.5TB+ 超大显存,一台即可极速运行 DeepSeek-R1 671B 无损精度满血版。单机支持满血版部署,国产唯一。

开箱即用

预装 Qwen、DeepSeek 等多款主流模型,内置模型秒级启动,开机即享大模型服务。

极速性能

基于 vLLM、SGLang 的软硬一体优化推理框架 AsLLM,整合 FlashInfer、FlashMLA、MTP、MLA 等算子,单机吞吐速率可达 H20 的 2 倍。

兼容易用

可集成钉钉、通义灵码、百炼专属版、QuickBI、工业智驱平台等;高度兼容 CUDA API,应用代码无需修改。

云边一体

单机版可作为边缘站点接入飞天企业版,打造云边一体解决方案。

弹性扩展

去中心化横向扩展 GPU 与 CPU 服务器,支持多模型并发、训练推理一体调度,最多可扩展到 48 台 GPU 服务器。

内置 DeepSeek 与阿里 Qwen 全系列模型,深度优化高性能推理引擎,开箱即用。

DeepSeek-R1 / V3 671B
16 卡 · BF16 无损满血版
1300+ tokens/s · 并发 128
Qwen3-235B-A22B
8 卡 · BF16 旗舰版
2000+ tokens/s · 并发 256
Qwen3 全尺寸 / QwQ / Qwen-VL
2/4/8 卡机型按需起步
32B / 72B / 120B 小参数主流模型

从国产满血版到高性价比小参数模型,按需选型。

规格AI Stack 一体机(16 卡)AI Stack 一体机(2/4/8 卡)
适用场景有国产要求的行业(政企/金融)、需部署满血版 DeepSeek 的大模型私有化场景预算较低、希望快速体验大模型、对参数量要求适中
代表模型DeepSeek-R1/V3-671B、Qwen3-235B-A22BQwen3-72B/14B、QwQ-32B、Llama-8B/80B、Qwen-VL
显存96G × 16 卡 = 1.5TB+,总带宽 2756 GB/s48G ×2/×4/×8(96 / 192 / 384 GB)
整机算力(BF16)1.9 PFLOP/s0.24 / 0.49 / 0.98 PFLOP/s
卡间互联ICN-Link 700 GB/s,机间 RDMA 1600 GbpsICN-Link 100~400 GB/s

支持线下一体机(1–48 台)、专有云(单集群 3 万卡)与公共云(单集群 10 万卡)弹性部署。具体配置以最终方案为准。

政务

文本编写、智能搜索、智能翻译

医疗

辅助诊断、AI 助理

教育科研

科研模型、教学辅助

企业营销

智能营销、智能客服

金融

智能风控、网点机器人

IDC《中国 AI 训推一体机技术能力评估 2025》六项满分,性能领先
通过中国电子技术标准化研究院评测
通过中国信息通信研究院检验
JOTO × 阿里云 AI Stack

买一台一体机不等于 AI 落地。JOTO 平台中立、十多年企业 IT 经验,负责把 AI Stack 真正用进你的业务。

咨询与选型

按你的行业合规、数据安全、预算与场景,判断该上 16 卡满血版还是 2/4/8 卡机型,定可量化的 POC。

私有化部署

AI Stack 一体机到场上电、模型装载、网络与权限配置,数据不出域,开机即用。

业务系统集成

把大模型接进 ERP、CRM、OA、飞书、企微、钉钉、知识库与数据库,真正用到业务流程里。

智能体与 RAG 搭建

在 AI Stack 上搭建企业知识库、智能问数、合同审查、智能体与工作流。

AI 安全与护栏

提示词攻击、隐私泄露、违规输出防护与审计日志,满足合规要求。

培训与持续运营

管理层研讨、IT 培训、业务工作坊与 FDE 陪跑,优化效果、权限与使用率。

留下你的行业、场景与算力预算,我们帮你判断机型选型、预估吞吐与并发、规划落地路径。

联系我们读懂私有化部署 DeepSeek