引言
DeepSeek
官方提供一个离线版的token
用量计算的代码示例,本文我们将按照代码示例进行一下实践。
准备工作
Anaconda
安装,提供Python
代码运行所需的虚拟环境。
PyCharm
安装,代码编写和运行工具,方便。
开始实践
第一步:安装Anaconda
工具。
第二步:在Anaconda
中创建一个新的虚拟环境,示例如下:
首先打开Anaconda
的Powershell
窗口:
输入以下命令,创建虚拟环境:
lua
conda create -n deepseek_token
输入以下命令,切换到新创建的虚拟环境中:
conda activate deepseek_token
输入以下命令,安装python3.8
,python
版本要求不低于3.8
:
ini
conda install python=3.8
输入以下命令,安装transformers
:
arduino
pip install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
下载DeepSeek
离线计算token
用量示例代码:地址:Token 用量计算 | DeepSeek API Docs
下载后得到一个名为deepseek_v3_tokenizer.zip
的压缩包,内容如下图所示:
在本地代码存放目录新建一个文件夹,将上图中最后一个红框内的三个文件拷贝到自己的文件夹内,如下图所示:
使用PyCharm
打开新建的项目工程目录,如下图所示:
打开后,发现示例代码中的transformers
有报错,右下角发现运行环境错误,不是我们之前创建好的虚拟环境,需要手动切换到刚刚新建的虚拟环境中:
点击右下角的Python 3.7
,进行运行环境切换,如下图所示:
选择刚刚创建好的虚拟环境,如下图所示:
切换成功后,如下图所示,transformers
下方红线会消失,如果不消失可以重新打开一下PyCharm
就会消失了,右下角切换环境的位置会显示刚刚创建的虚拟环境名称:
在文件空白位置鼠标右键,选择run
就可以运行代码了,如下图所示:
运行成功后,如下图所示,控制台输出的是字符串的编码:
并没有按照我预想的直接返回一个数字,而是返回的集合,还需要我们自己转换一下,输出一下集合的长度,如下图所示:
这样看起来就清晰多了,至此在Windows
系统下DeepSeek
离线计算token
用量实践到此结束,如有问题或建议欢迎大家评论区交流,最后还是要passion
!
问题及解决办法
一、运行长文本内容时出现以下错误:
csharp
SyntaxError: Non-UTF-8 code starting with '\xe5' in file D:\ConnorProjects\deepseek_token\deepseek_tokenizer.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
报错内容分析应该是编码格式问题,查阅资料后使用以下方案成功解决:
在文件第一行新增以下代码,如下图所示:
markdown
# -*- coding: utf-8 -*-