logo

算力租赁

模型Token服务

按需计费模式-Tokens

本节为您详细介绍按需计费模式-Tokens。

Token 概念

在模型服务中,一个核心概念是“token”。当您调用模型进行推理服务时,输入内容会首先经过分词处理,转换成模型能够识别的token形式。随后,这些token经过模型的处理,再以token的形式输出,并最终转化为您所需的文本。

模型服务费用 = token 使用数量 * token 单价

不同的模型可能采用不同的分词策略,同一段文本在不同模型上的 tokens 计量会存在差异。

产品价格

按 token 使用量付费

出账时间:每小时出账。

付款类型:按量后付费。

免费额度:使用模型时,将优先消耗免费额度,免费额度耗尽后,调用将会失败;如需继续使用,需要手动开通对应的模型付费服务。

在线推理

标准时段:08:00-24:00,各模型价格如下表,实际购买价格以下单页面为准。

模型名称

条件

服务类型

计费单位

(元/百万tokens)

计费单位

(元/千tokens)

免费说明
DeepSeek-V4-Pro 输入 12 0.012

每个模型可免费使用50万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。

输出 24 0.024
DeepSeek-V4-Flash 输入 1 0.001
输出 2 0.002
GLM-5.1 输入(0, 32k]

输入

6 0.006

输出

24 0.024
输入(32k, 200k]

输入

8 0.008

输出

28 0.028
GLM4.6V 输入(0, 32k]

输入

1 0.001

输出

3 0.003
输入(32k, 128k]

输入

2 0.002

输出

6 0.006
Qwen3.5-122B-A10B 输入(0, 128k]

输入

0.8 0.0008

输出

6.4 0.0064
输入(128k, 256k]

输入

2 0.002

输出

16 0.016
Qwen3.5-35B-A3B 输入(0, 128k]

输入

0.4 0.0004

输出

3.2 0.0032
输入(128k, 256k]

输入

1.6 0.0016

输出

12.8 0.0128
Qwen3-Next-80B-A3B-Instruct

输入

1 0.001

输出

4 0.004
Qwen3-VL-235B-A22B-Instruct

输入

2 0.002

输出

8 0.008
Kimi-K2.5

输入

4 0.004

输出

21 0.021
Minimax-M2.5

输入

2.1 0.0021

输出

8.4 0.0084
Qwen3.5-397B-A17B(正式版) 输入(0, 128k]

输入

1.2

0.0012

每个模型可免费使用2500万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。

输出

7.2 0.0072
输入(128k, 256k]

输入

3 0.003

输出

18

0.018
GLM-5(正式版) 输入(0, 32k]

输入

4

0.004

输出

18

0.018
输入(32k,200k]

输入

6 0.006

输出

22 0.022
DeepSeek-V3.2(旗舰版)

输入

2

0.002
输入(缓存命中) 0.2 0.0002

输出

3

0.003

DeepSeek-V3.1

输入

4

0.004

输入(缓存命中)

0.5

0.0005

输出

16 0.016
DeepSeek-R1-0528

输入

4

0.004

输出

16

0.016

DeepSeek-R1

输入

4

0.004

输出

16

0.016

DeepSeek-V3

输入

2

0.002

输出

8

0.008

DeepSeek-V3-0324

输入

2

0.002

输出

8

0.008

DeepSeek-R1-Distill-Llama-70B

输入

4.1

0.0041

输出

4.1

0.0041

DeepSeek-R1-Distill-Qwen-32B

输入

1.3

0.0013

输出

1.3

0.0013
Qwen3-VL-30B-A3B-Instruct

输入

0.75 0.00075

每个模型可免费使用100万tokens,从第一次使用开始限期两周。免费额度用完或到期后,可以付费开通服务。

输出

3 0.003

Qwen3-Coder-480B-A35B-Instruct

输入

8 0.008

输出

16 0.016
Qwen3-235B-A22B-Instruct-2507

输入

2 0.002

输出

8 0.008

Qwen3-235B-A22B

输入

2.5 0.0025

输出

10 0.01
Qwen3-30B-A3B

输入

1 0.001

输出

4 0.004
Qwen3-32B

输入

1 0.001

输出

4 0.004
Qwen3-14B

输入

0.8

0.0008

输出

1.6

0.0016

Qwen3-8B

输入

0.3

0.0003

输出

0.6

0.0006
Qwen3-4B

输入

0.3 0.0003

输出

0.6 0.0006

Qwen2.5-72B-Instruct

输入

4.13

0.00413

输出

4.13

0.00413

Qwen2.5-VL-72B-Instruct

输入

4.13

0.00413

输出

4.13

0.00413

Qwen-VL-Chat

输入

0.8

0.0008

输出

1.6

0.0016
BGE-m3

输入

0.5 0.0005
BGE-Reranker-Large

输入

0.5 0.0005

Kimi-K2-Instruct

输入

4 0.004

输出

16 0.016

其他系列模型

每个模型可免费使用一定额度tokens,用尽后不支持tokens计费模式。

优惠时段

优惠时段:00:00-08:00,各模型价格如下表,实际购买价格以下单页面为准。

说明:优惠时段不适用于缓存命中价格,缓存命中价格全天一致。

模型名称 条件 服务类型

计费单位

(元/百万tokens)

计费单位

(元/千tokens)

优惠时段说明
Qwen3.5-397B-A17B(正式版) 输入(0, 128k]

输入

0.6

0.0006

优惠时段时间范围:00:00-08:00

输出

3.6

0.0036
输入(128, 256k]

输入

1.5

0.0015

输出

9

0.009
GLM-5(正式版) 输入(0, 32k]

输入

2

0.002

输出

9

0.009
输入(32k,200k]

输入

3

0.003

输出

11

0.011
DeepSeek-V3.2(旗舰版)

输入

1 0.001

输出

1.5 0.0015
DeepSeek-V3.1

输入

2 0.002

输出

8 0.008
DeepSeek-R1-0528

输入

1 0.001

输出

4 0.004
DeepSeek-V3-0324

输入

1 0.001

输出

4 0.004
DeepSeek-R1

输入

1 0.001

输出

4 0.004
DeepSeek-V3

输入

1 0.001

输出

4 0.004

批量推理

模型名称 服务类型

计费单位

(元/百万tokens)

计费单位

(元/千tokens)

批量推理说明
DeepSeek-V3.1

输入

1.6

0.0016

适用于无需实时响应的业务场景,可通过离线方式进行大规模数据处理。价格为在线推理标准时段的40%

输出

6.4

0.0064
DeepSeek-V3-0324

输入

0.8

0.0008

输出

3.2

0.0032
DeepSeek-V3

输入

0.8

0.0008

输出

3.2

0.0032
DeepSeek-R1-0528

输入

1.6

0.0016

输出

6.4

0.0064
DeepSeek-R1

输入

1.6

0.0016

输出

6.4

0.0064

使用限制

当前对模型设置了 RPM(Requests Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,具体限制可在模型广场模型详情页中查看。

X云擎技术

截屏,微信识别二维码

微信号:18148905161

(点击微信号复制,添加好友)

  打开微信