1.公司模型简介
深度求索公司 ,其正式名称为杭州深度求索人工智能基础技术研究有限公司(另有北京分公司),以下是对其的介绍:
公司名称 :杭州深度求索人工智能基础技术研究有限公司(简称DeepSeek)
成立时间 :2023年(北京分公司成立于2023年5月16日)
注册地点 :浙江省杭州市(北京分公司位于北京市海淀区科学院南路2号C座5层N501)
经营范围 :专注于研究和试验发展,特别是在人工智能领域。提供技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广等。涵盖软件开发、计算机系统服务、信息系统集成服务、人工智能应用软件开发、信息技术咨询服务等多个方面。
主要成就与贡献:在人工智能领域进行了多项研究和投资,包括但不限于大模型的研发和开源。通过开源大模型如DeepSeek Coder等,展示了在人工智能技术领域的实力和贡献。DeepSeek V2模型的发布,提供了一种史无前例的性价比,推动了中国大模型价格战的发展,并因其创新的MLA架构和DeepSeekMoESparse结构而受到业界的广泛关注。
2.DeepSeek模型介绍
模型架构:DeepSeek大模型以Transformer架构为基础,自主研发的深度神经网络模型。它采用混合专家(MoE)网络结构,具有训练经济、推理高效的特点。基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络。
DeepSeek-V2 :该版本是一个千亿级模型,参数量达到236B,其中激活参数为21B。相较于前一代DeepSeek LLM(67B),节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提升至5.76倍。DeepSeek-V2在中文综合能力、英文综合能力、知识、数学、推理、编程等榜单中均表现出色,与GPT-4-Turbo、文心4.0等闭源模型在评测中处于同一梯队。
DeepSeek-Prover-V1.5 :这是一个70亿参数的开源模型,通过结合强化学习和蒙特卡洛树搜索,显著提升了证明生成的效率和准确性。在Lean 4的形式定理证明方面优于所有开源模型,达到了新的SOTA(State Of The Art)水平。
应用场景与优势 :
智能对话:DeepSeek大模型可以应用于智能对话场景,提供自然、流畅的人机交互体验。
文本生成:根据用户输入的文本数据,生成符合用户需求的文本内容,如文章、报告等。
语义理解:深入理解用户意图,实现精准的语义分析。
计算推理:具备强大的计算推理能力,可以处理复杂的数学问题、逻辑推理等。
代码生成补全:擅长处理编程任务,可以生成或补全代码,提高开发效率。
3.API调用指南
1.API key申请
登陆注册,实名认证之后,在deepseek开放平台上申请APIkey:
查看接口文档
Deepseek接口文档
2.获取模型列表
查询模型列表:
https://api.deepseek.com/models
DeepSeek API 使用与 OpenAI 兼容的 API 格式,通过修改配置,您可以使用 OpenAI SDK 来访问 DeepSeek API
pip3 install openai
- 使用requests获取支持的模型列表:
python
from openai import OpenAI
import time
import requests
def get_model_list(api_key):
url = "https://api.deepseek.com/models"
payload = {}
headers = {
'Accept': 'application/json',
'Authorization': "Bearer {}".format(api_key)
}
response = requests.request("GET", url, headers=headers, data=payload)
print(response.text)
if __name__=="__main__":
api_key = "sk-xxxxx"
strat = time.time()
get_model_list(api_key)
end = time.time()
print(f"deepseek_chat 此次调用花费时间为:{(end-strat):.4f}秒")
{"object":"list","data":[{"id":"deepseek-chat","object":"model","owned_by":"deepseek"},{"id":"deepseek-coder","object":"model","owned_by":"deepseek"}]}
deepseek_chat 此次调用花费时间为:0.4065秒
- 使用 OpenAI 获取支持的模型列表:
python
def get_model_list(api_key):
client = OpenAI(api_key="sk-0c493e9b56734edd86425f97c04d1e8c", base_url="https://api.deepseek.com")
print(client.models.list())
if __name__=="__main__":
api_key = "sk-xxxxx"
strat = time.time()
get_model_list(api_key)
end = time.time()
print(f"deepseek_chat 此次调用花费时间为:{(end-strat):.4f}秒")
SyncPage[Model](data=[Model(id='deepseek-chat', created=None, object='model', owned_by='deepseek'), Model(id='deepseek-coder', created=None, object='model', owned_by='deepseek')], object='list')
deepseek_chat 此次调用花费时间为:0.4861秒
可以看到deepseek支持的模型主要就两个:
deepseek-chat和deepseek-coder
3. 聊天问答
python
from openai import OpenAI
import time
def deepseek_chat(api_key, message):
client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "你是一个全能助手,能够准确解答用户的问题"},
{"role": "user", "content": message},
],
stream=False
)
print(response.choices[0].message.content)
if __name__=="__main__":
api_key = "sk-xxxxx"
message="请问为什么天空是蓝色的?"
strat = time.time()
deepseek_chat(api_key, message)
end = time.time()
print(f"deepseek_chat 此次调用花费时间为:{(end-strat):.4f}秒")
天空之所以呈现蓝色,主要是由于光的散射现象。以下是详细的解释:
光的组成:太阳光(白光)是由多种颜色的光混合而成的,包括红、橙、黄、绿、蓝、靛、紫等。这些光的颜色是由于它们的波长不同。
瑞利散射:当太阳光穿过地球的大气层时,会与大气中的气体分子(主要是氮气和氧气)发生相互作用。根据瑞利散射理论,波长较短的光(如蓝色和紫色)比波长较长的光(如红色和黄色)更容易被大气分子散射。
蓝色光的散射:在太阳光中,蓝色光的波长较短,因此它比其他颜色的光更容易被大气分子散射。这意味着蓝色光会向各个方向散射,使得整个天空看起来是蓝色的。
紫色的忽略:虽然紫色光的波长比蓝色光更短,理论上应该更容易被散射,但我们的眼睛对紫色的敏感度不如对蓝色高,而且太阳光中的紫色光相对较少,因此天空主要呈现蓝色而不是紫色。
日出和日落时的颜色变化:在日出和日落时,太阳光需要穿过更厚的大气层才能到达我们的眼睛,这时波长较长的红色和橙色光相对较少被散射,因此天空呈现红色或橙色。
总结来说,天空之所以是蓝色的,是因为太阳光中的蓝色光被大气分子散射到各个方向,使得整个天空看起来是蓝色的。
deepseek_chat此次调用花费时间为:17.9344秒
更多功能查看接口文档
Deepseek接口文档