百亿token免费用！国产平台一键拖拽定制大模型，多元算力极具性价比

　　新智元报道

　　编辑：编辑部

　　大模型落地并不缺场景，却往往因算力不够遇难题。这家国产平台从今日起，免费送百万 token。开发者们不仅可以对 20 多种开源模型精调，还能用上极具性价比的多元算力。

　　有人调侃，比起「造福人类」，大模型更应该先呼吁「给我场景」。

　　然而无问芯穹认为，经历了互联网时代的高速发展，中国市场并不缺应用场景。

　　大模型的落地难，症结在于行业内正在持续遭遇的算力难题。

　　就在今天，无问芯穹发布了基于多芯片算力底座的无穹 Infini-AI 大模型开发与服务平台，并宣布自 3 月 31 日起正式开放全量注册，给所有实名注册的个人和企业用户提供百亿 tokens 免费配额。

　　开发者可以在这个平台上体验、对比各种模型能力和芯片效果，通过简单拖拽各种参数按钮的动作，就能精调出更贴合业务的大模型并部署在无穹 Infini-AI 上，再以非常优惠的千 token 单价向用户提供服务。

　　算力难，有解法了！

　　目前，无穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 闭源模型、Llama2、Qwen、Qwen1.5 系列等共 20 多个模型，以及 AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡，支持多模型与多芯片之间的软硬件联合优化和统一部署。

　　第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹 Infini-AI，并获得细粒度定制化的按 token 计费方案。

　　「我们对模型品牌和芯片品牌的覆盖率还会持续提升，随着时间的推移，无穹 Infini-AI 的性价比优势会越来越突出。」

　　无问芯穹联合创始人兼 CEO 夏立雪表示，未来无穹 Infini-AI 还将支持更多模型与算力生态伙伴的产品上架，让更多大模型开发者能够『花小钱、用大池』，持续降低 AI 应用的落地成本。

　　一个月前，同道猎聘在部分城市发布了 AI 驱动的数字人面试官产品，而且还有更多的 AI 功能正在筹备中，是由无问芯穹提供的弹性算力使用方案，并在无问芯穹的平台上基于开源大模型微调而成。相比市面上的其他方案，实现了更高的推理加速，也大幅降低了新功能上线的成本。

　　夏立雪表示，这一效果让无穹团队很有信心，所以除了开放全量注册，也正式启动了大算力需求方的测试邀请，提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。

　　算力性价比大幅提升，源自多芯片优化实力

　　想在成熟场景中应用大模型的企业，找到了算力但不会用，无法做出差异化的产品实现业务升级。

　　想创造 AI-Native 应用的企业，算力成本难负担，工具链也不好用，产品启动投产比不合理。

　　自行训练模型的企业，随着业务的拓展，往往找不到也买不起所需体量的算力，业务运行成本过高。

　　截至 2023 年年末，我国算力总规模达到每秒 1.97 万亿亿次浮点运算（197E FLOPs），位居全球第二，算力规模近 5 年年均增速近 30％。

　　如此增速，为何行业内仍然感到算力尤其难？

　　背后的原因是，人工智能行业发展恰逢工程师人才红利爆发，加速了我国大模型行业的蓬勃发展，需求端「嗷嗷待哺」，而市面上仍存在大量未被收集和充分利用的算力资源，缺少一种足够成体系的「大模型原生」商业模式，将算力供给转化为满足市场需求的产品和服务。

　　「市面上有很多未被激活的有效算力，硬件本身差距在快速缩小，但大家在使用时总会遇到『生态问题』。」

　　夏立雪说，这是因为硬件的迭代速度总是比软件更慢、价格更高，软件开发者不希望工作中出现除自身研发工作之外的其他「变量」，因而总是会倾向于直接使用有成熟生态的芯片。

　　无问芯穹希望帮助所有做大模型的团队「控制变量」，即在使用无问芯穹的算力服务时，用户不需要也不会感觉到底层算力的品牌差异。

　　成立不足一年的无问芯穹，何以能够在这么短时间内跑通多种计算卡上的性能优化？

　　2022 年底，大模型引发社会广泛关注后，夏立雪和他的导师汪玉认为，国内整体算力水平距离国际先进还有明显差距，光靠芯片工艺提升或是多元芯片的迭代已远远不够，需要建立一个大模型生态系统，让不同模型能自动部署到不同硬件上，让各种算力得到有效利用。

　　一年后，无问芯穹宣布了在英伟达 GPU 和 AMD 等芯片上取得的优化效果，实现了大模型任务2-4 倍的推理速度提升。随后，AMD 中国宣布与无问芯穹达成战略合作关系，双方将携手联合提高商用 AI 应用性能。

　　两年之后，无问芯穹在发布会上展示了其在 10 种芯片上的性能优化数据，在每张卡上都显示已取得了目前行业内最优的性能优化效果。

　　「我们与各个模型、芯片伙伴都建立了强信任关系。」

　　夏立雪对记者说：「一方面来自于我们面向大模型的计算优化实力，另一方面无问芯穹非常注重保护伙伴的数据安全。无问芯穹会持续保持中立性，并且也不会与客户产生利益冲突，这是我们业务开展的基础。」

　　做「大模型原生」的加速技术栈与系统

　　Transformer 统一了这一轮的模型结构，并且表现出持续取得应用突破的趋势。」

　　汪玉在开场发言中说：「从前在 AI1.0 时代我们做上一家公司，只能做很小一部分 AI 任务。今时不同往日，大模型结构统一了，依靠生态建立起来的硬件壁垒正在『变薄』。」

　　得益于世界范围内正涌起的 AI 浪潮，以及中国市场的独特机会，无问芯穹面对的是一次巨大的技术机遇。

　　Transformer 在设计时天然基于并行计算架构，规模越大的大模型带来的智能效果越好，使用的人越多，其所需的计算量也越大。

　　「无问芯穹正在做的是『大模型原生』的加速技术栈。」

　　无问芯穹的联合创始人兼 CTO 颜深根表示，大模型落地依赖算法、算力、数据，还有系统。

　　算力决定了大模型的速度，设计优良的系统则能释放出更多硬件潜力。

　　无问芯穹的团队曾搭建过数万片 GPU 级的大规模高性能 AI 计算平台，具备万卡纳管能力，并基于自运营集群成功搭建了云管系统，已实现跨域多云间的统一调度。

　　One More Thing

　　「在端侧，人们则更加倾向于快速将大模型的能力落到人机交互的界面上，提升实用体验」。

　　无问芯穹联合创始人兼首席科学家戴国浩认为，未来，凡是有算力的地方，都会有 AGI 级别的智能涌现。

　　而每一个端上的智能来源，就是大模型专用处理器 LPU。

　　大模型处理器 LPU 可以提升大模型在各种端侧硬件上的能效与速度。

　　戴国浩在发布会上向观众展示了「一张卡跑大模型」，其团队于今年 1 月初推出的全球首个基于 FPGA 的大模型处理器，通过大模型高效压缩的软硬件协同优化技术，使得 LLaMA2-7B 模型的 FPGA 部署成本从 4 块卡减少至 1 块卡，并且性价比与能效比均高于同等工艺 GPU。未来，无问芯穹的端侧大模型专用处理器 IP，可以被模块化地集成到各类端侧芯片中。

　　未来，该 IP 将被集成于「无穹 LPU」。戴国浩宣布，「无穹 LPU」将于 2025 年面世。

　　「从云到端，我们要将软硬件一体联合优化进行到底。大幅降低大模型在各个场景中的落地成本，让更多好用的 AI 能力更好、更平价地走进更多人的生活」。