// 调用 Python 计算 token 数
// 快速估算: https://www.aardio.com/zh-cn/doc/example/AI/llmTokens.html
import py3;
import zlib.httpFile;
// 下载 DeepSeek 分词器配置文件
if(!io.exist("\py\deepseek_v3_tokenizer\deepseek_v3_tokenizer")){
zlib.httpFile.download("https://cdn.deepseek.com/api-docs/deepseek_v3_tokenizer.zip",,"/py")
}
// 导入 transformers Python 模块
var transformers = py3.import("transformers");
if(!transformers){
// 模块不存在时自动安装
import py3.pip;
py3.pip.process("install","transformers");
transformers = py3.import("transformers");
if(!transformers) return; // 安装失败则退出
}
// 加载预训练的分词器,函数名前加 $ 表示将表参数转换为 Python 命名参数
tokenizer = transformers.AutoTokenizer.$from_pretrained(
trust_remote_code=true,//命名参数
io.fullpath("\py\deepseek_v3_tokenizer\deepseek_v3_tokenizer") //顺序参数
)
// 文本分词编码
var encodedTokens = tokenizer.encode("aardio")
// 获取分词数量
var tokenCount = encodedTokens.len();
import math.format;
fmtTokens = math.format.size(tokenCount," tokens")
print("DeepSeek 计算工具:",fmtTokens);
Markdown 格式