首页 / 新闻 / DeepSeek本地化部署 | AI应用开发

DeepSeek本地化部署 | AI应用开发

作者：由你创发布时间： 2025-02-18 阅读量：525

一、deepseek简介

在数字化转型的浪潮中，AI 技术已成为企业提升竞争力的关键。DeepSeek是一款开源AI平台，通过全栈开源架构实现技术共享。其核心能力涵盖多模态交互、垂直领域优化及轻量化部署，支持企业快速定制AI助手，应用于智能客服、数据分析等场景，提升业务流程效率，灵活适配金融、制造等行业需求，推动AI技术从实验室到产业的高效转化，为各行各业赋能。

二、参数选择

deepseek-R1不同参数体量的模型综合表现评分如下，综合官网的评分以及网上的实机评测, 大致性能分为三个档次, 1.5b, 7b, 8b 三个一档, 对硬件性能要求最低, 逻辑思维能力较差的基础类型, 14b和32b一档, 对硬件性能要求中等, 有一定的逻辑思维能力, 在处理例如复杂代码, 文章生成, 重点总结等复杂任务中也有不错的表现, 70b, 671b一档, 对硬件要求较高, 需要专业的高性能显卡或者显卡集群来执行, 处理能力优秀, 70b参数的性能和GPT-4的综合表现相当, 671b参数的deepseek-R1综合表现接近 OpenAI-o1。

想要本地部署, 需要根据自己的设备的性能来部署, 以下是硬件和参数体量对应的大致关系, 不绝对准确, 仅供参考。

我这里用的是12G显存的RTX4080显卡+13thi9CPU +32GRAM主机, 选择的是14b的模型（根据实际使用经验，显存是比较关键的硬件参数，其他硬件参数可以利用各种优化技术来适配，但是尽量保证显存符合要求，不然严重影响本地部署的使用体验）。

三、部署流程

整体部署流程分为两部分：

后端: 根据本地设备的性能选择合适参数体量的DeepSeek-R1模型, 配置本地环境并下载模型数据,。

前端: 安装浏览器插件, 优化与Ai交互的UI界面, 并在必要的情况下搭建网页服务器, 确保局域网内成员可用。

①后端部署

Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口，用于创建、运行和管理这些模型,

Ollama支持多种操作系统，包括但不限于：

macOS：适用于所有现代版本的macOS。

Windows：支持Windows 10及更高版本。

Linux：支持多种Linux发行版，如Ubuntu、Fedora等。

Docker：通过Docker容器，Ollama可以在几乎任何支持Docker的环境中运行。

windows环境下下载ollamaSetup.exe, 执行安装程序安装完成后, 命令行中执行命令：

ollama --version

如果安装成功则会显示ollama的版本信息如下格式：

ollama几乎支持目前所有主流的开源大语言模型, 当然也包括如今大火的deepseek。

官网程序下载，本地安装好ollama后, 执行命令：

ollama run deepseek-r1:14b

开始下载模型,过程如图所示:

下载完成后, 后端部署完成。

②前端部署

为提升交互体验, 可以安装浏览器插件, 以聊天框的UI界面和AI进行问答(默认只能从命令行聊天)

浏览器插件如下, google浏览器和edge浏览器均可以安装。

安装好之后前端界面如下：

以上就是本地部署deepseek的基本流程。

四、使用体验

①输出速度:

deepseek-r1提供了 1.5b/7b/8b/14b/32b/70b/671b一共七个参数体量的模型, 参数体量也是最直观的可以看出模型性能的参数, 由上面的图片可以看到, 模型运行时, GPU和显存几乎都是满负荷的状态, 正常情况下, 14b的模型运行起来大约需要20G左右的显存, ollama利用多种优化技术使得其在显存更小的设备上也可以运行。

Ollama优化特性(包括但不限于)：

智能量化：支持2-8bit动态量化（精度损失<3%）
内存压缩：采用Huffman编码压缩权重（压缩率40-60%）
层卸载：自动将非活跃层转存至系统内存/SSD
即时编译：针对不同GPU架构自动生成优化内核

如图所示, 左侧为设备型号及参数, 根据网上的资料显示, 14b体量的模型需要RTX3090以及至少14G的显存, 实际测试使用效果, RTX4080Laptop +12G显存也是可以正常运行14b的deepseek-r1的, (原理上ollama会利用多种技术来减低大语言模型的本地化部署对于硬件的性能要求, 常用的就是量化技术, 简单地说就是降低模型参数精度, 使得模型可以在不太影响输出效果的前提下, 一定程度的减少硬件参数要求) 实机使用, deepseek-r1 14b版本的输出速度在25~40token/s区间, 可以说输出速度非常快, 使用起来比较流畅。

②输出效果

输出效果相对于输出速度, 更加主观, 我们召集了多位同事和本地部署的deepseek-r1:14b进行对话并反馈使用体验, 并做如下总结：

相较于deepseek-r1 1.5b/7b/8b 版本, 14b版本明显在对话/梳理/思考/总结等方面有较大的提升, 逻辑完整性较高
仅4080显卡的笔记本上就可以运行deepseek-r1:14b, 真正的实现了AI大语言模型走进生活各处
可以给模型定向投喂数据, 增强模型对特定领域的问题的理解及回复精准度, 且不担心重要数据的泄露
比如联网采集数据后, 由deepseek来分辨,过滤, 总结结论的能力上, 由于网络上信息量大, 无效信息占比较高, 14b体量的deepseek无法有效分辨来源及准确性, 满血版(671b参数)的deepseek-R1, 对关键数据的敏感程度, 以及总结有效数据的能力明显更强
对于复杂问题的处理能力上, 稍显不足, 编程, 数学题, 以及特定专精领域的专业知识, 由于训练的资源有限, 回答的准确率有待提升.