支持的模型
覆盖文本、代码、多模态等多种类型的大语言模型
热门
DeepSeek
深度求索
- DeepSeek-V3 (671B)
- DeepSeek-R1 (推理专用)
- DeepSeek-Coder
- 支持 32K 上下文
LLaMA
Meta AI
- LLaMA 2 (7B/13B/70B)
- LLaMA 3 (8B/70B)
- Code LLaMA
- 支持 128K 上下文
ChatGLM
智谱 AI
- ChatGLM3 (6B)
- ChatGLM4 (9B)
- GLM-4 (全功能)
- 中文场景优化
Qwen
阿里巴巴
- Qwen 2 (7B/72B)
- Qwen-VL (多模态)
- CodeQwen
- 长文本支持 128K
Baichuan
百川智能
- Baichuan2 (7B/13B)
- Baichuan3 (全功能)
- 搜索增强
- 中文能力突出
自定义模型
导入您自己的模型权重,私有化部署
全栈式模型服务
模型训练
提供分布式训练框架,支持预训练、持续训练、指令微调等多种训练方式。
- DeepSpeed / Megatron-LM
- FSDP / Colossal-AI
- 千卡级分布式训练
模型微调
支持 LoRA、QLoRA、Prefix Tuning 等高效微调方法,降低训练成本。
- LoRA / QLoRA
- 全参数微调
- 领域适配优化
模型推理
高性能推理引擎,支持 vLLM、TensorRT-LLM,低延迟高吞吐。
- vLLM / TensorRT-LLM
- 动态批处理
- 量化压缩加速
简单快速的 API 接入
兼容 OpenAI API 格式,一行代码即可接入,支持流式输出、函数调用等高级特性。
# Python 示例
import
openai
client = openai.OpenAI(
api_key="your-api-key",
base_url="https://api.tianhong.ai/v1"
)
response = client.chat.completions.create(
model="deepseek-v3",
messages=[{"role": "user", "content": "你好"}]
)
服务优势
低延迟响应
平均响应时间 < 100ms,首 token 延迟 < 50ms
弹性扩展
自动扩缩容,轻松应对流量高峰
稳定可靠
99.99% 服务可用性承诺
按需付费
按 token 计费,无最低消费
API 价格
| 模型 | 输入 (每 1K tokens) | 输出 (每 1K tokens) |
|---|---|---|
|
DeepSeek-V3
推荐
|
¥0.002 | ¥0.008 |
| DeepSeek-R1 | ¥0.004 | ¥0.016 |
| LLaMA 3 (70B) | ¥0.005 | ¥0.015 |
| ChatGLM4 | ¥0.003 | ¥0.009 |
| Qwen2 (72B) | ¥0.004 | ¥0.012 |
* 价格仅供参考,实际价格以控制台显示为准。新用户注册即送 100 万 tokens 免费额度。