token 是模型用來表示自然語言文本的基本單位,也是我們的計費單元,可以直觀的理解為“字”或“詞”;通常 1 個中文詞語、1 個英文單詞、1 個數(shù)字或 1 個符號計為 1 個 token。
一般情況下模型中 token 和字數(shù)的換算比例大致如下:
但因為不同模型的分詞不同,所以換算比例也存在差異,每一次實際處理 token 數(shù)量以模型返回為準,您可以從返回結(jié)果的 usage 中查看。
您可以通過如下壓縮包中的代碼來運行 tokenizer,以離線計算一段文本的 Token 用量。
更多建議: