如何用两台服务器机头组装一台推理服务器和训练服务器
2023年10月11日,我们公司分别从深圳和上海腾出两台服务器机头,搭配自家AI加速卡,组装成一台推理服务器和训练服务器。我们的目标是为某影视剧提供AI服务。服务器在公司安装好基础组件和私有化部署好AI系统,便从上海寄往某影视城。影视城没有专门的IDC机房,我们将服务器部署在剧组筹备地所在的酒店。
当时就遇到了三个问题,第一,酒店的电能带起服务器吗?第二,如何解决服务器噪音问题?第三,如何解决服务器散热问题?
服务器寄到酒店,一位负责硬件部署的同事跟我一起去了现场部署。当时怕酒店电力带不起,于是就小心翼翼的计划先启动一台服务器。一台成功启动怕两天启动有问题。我想出一个方法拆卡。推理服务器在B端不需要那么多卡。拆些下来能降低功耗。后来尝试两台服务器启动完全没问题。关于噪音,服务器启动后会发出刺耳的噪音,在房间里很难待太长时间,结果发现酒店隔音还不错,关上门隔壁几乎听不到。但是在最初的几天还是有人投诉,后来我们又把服务器移动到一个隔壁没有什么人住的房间,后面就没人投诉。关于散热,我们实地实验,我们把房间空调打开设置到20度。一整天下来,房间温度并不高。
硬件安装好,就开始干活,我们跟制片方和剧组达成分工,帮助剧组人员配好访问权限。后面就是剧组提供素材,我现场待了10天,每天跟剧组从早上8点半到晚上9点半,负责模型训练。影视的数据集有点不同,全是大长图,而训练一般是方图。于是对数据集进行了非常多的实验,不同大小,不同尺寸,裁剪方式等等。前一两天训出来的模型非常差。经常过拟合和欠拟合。每天的工作就是调参数,调数据集,还有私有化的系统不完善问题反馈给团队,团队加急开发后更新到私有化环境。
经过不断实验,逼近一个合理的超参数,效果一下出来了,剧组给到一些场景,让我帮忙制作。这个时候就对提示词有要求了。在生图过程中,模型的能力和提示词的功力都发挥很重要的作用。模型是基础,提示词是使能的重要法宝。很多同事说,我们都是用同样的模型,为什么你能生出这么好的图像,我却不行。其实提示词是很关键的,虽然大家懂点,但是提示词技术对于普通人来说依然有门槛。光线控制,材质控制,光源控制,颜色控制等等,都会成为效果的影响因素。
经过2周时间调教了一个基本能用的模型,第一次生出一个效果得到剧组老师肯定,说这张图很不错。当时我就觉着有戏,这条路能走通了