最近,我彻底沉迷于DeepSeek的本地部署,玩得不亦乐乎。今天,我刚刚下单了一张Tesla T10显卡,价格大约1400元。虽然价格有点小贵,但为了追求更高的性能,我还是咬咬牙下单了。现在就盼着几天后它能到货,到时候就能看看实际效果究竟如何了。
目前,我正在使用ollama跑deepseek的机器配置如下:i5-7400处理器、32GB内存、一块GTX 1050 Ti 4GB显卡,以及一张Tesla P102矿卡(10GB显存,入手价280元左右)。整台机器的显存总容量为14GB。在运行14B模型时,速度非常快,大概能达到14 tokens/s,且全程由GPU完成运算。不过,当运行32B模型时,速度就会下降到2.19 tokens/s,因为此时无法完全依赖GPU,CPU也必须参与运算。我用的是Ubuntu 24.04系统, ubuntu下这些N卡驱动支持非常好。
等T10显卡到货后,它的16GB显存加上P102的10GB,整台机器的显存总容量将达到26GB。这样一来,运行32B模型时应该能够完全压入GPU运行了,我期待能将速度提升到14 tokens/s。其实,我之前也考虑过购买P100(目前报价1120元左右),价格比T10便宜不少。但它的架构和P102一样,最终我还是决定多花点钱,入手一个新架构的显卡。说到底,预算还是有限。现在,2080 Ti魔改22GB显存的版本在pdd拼多多上售价大约2700元,我还在观望这些显卡到年底会不会涨价。
我进行本地部署主要有两个目的。一是为了深入体验AI的魅力(DeepSeek的出现让我眼前一亮),顺便学习一些AI相关的知识,不想在数字化时代掉队;二是想结合编程,探索一些实际应用场景。比如,qwen2.5-coder在编程方面表现非常出色,用它辅助编写python小程序非常爽, 可惜目前我只能运行它的14B版本。购买16G显存的T10显卡,就是为了能运行32B版本,进一步拓展应用的可能性。目前,我暂时能想到的就这些,后续应该还有更多有趣的发现。