云逸网10+年专注网站建设营销服务,您值得信赖的网站建设营销服务商!

10+年专注互联网营销服务

您值得信赖的网站建设营销服务商

24小时咨询热线

158-1472-1319

调教AIGPT之奖惩指令(有监督学习)的技巧


调教AIGPT之奖惩指令(有监督学习)的技巧



其实这个所谓“奖惩指令(有监督学习)”的作用和调教原理很好理解,它就像是我们教育孩子一样。



如果你希望孩子达到你理想的行为标准,那么你就需要对他进行教育,如果孩子做得好,我们就需要及时的夸奖,鼓励他变得更好,



而如果孩子做的差劲,我们就需要对他进行惩罚,让孩子知道你的底线。



于是就是通过这样不断的棒槌 + 奖励的反复纠正下,孩子自然就会形成一套我们所期望的行为标准。






所以,既然基于神经网络的 AI 具备思维链的能力,那么我们当然也可以按照教育孩子的这种思路,让 AI 变得越来越听话。



至于这个奖惩指令的实操思路很简单,这里不妨拿我训练的【出题小助手】举例子~



这一点我成长圈社群的同学应该都知道,每个周我都会给我社群的同学出一道思考题~



所以,在ChatGPT出现之后,我就在思考,能不能让 AI 自动或者辅助我生成思维题,以分担掉我这部分的工作负担。



于是,在这种目标的指引下,我就开启了对AI的调教....



调教思路很简单:



首先,先投喂我之前的思维题,然后让它学习和分析我出题的格式,然后让它生成答案模式。



对于这些AI生成的内容,如果碰到符合我要求的地方,我就会用肯定词汇,比如:非常好,请继续保持这种形式。



对于不符合我要求的地方,我就会用否定词汇,比方说:不对,你错了,请重新,要求 XXX。



(一般 GPT 马上会向你道歉,并纠正其错误)



类似于你看到的这样.....







所以,不妨思考下你工作中场景,看看有哪些是比较偏模式化的任务,对于这些比较模式化的目标,你都可以通过【奖惩指令】对 AI 进行训练~



在训练的过程中,对于那些符合你要求的地方进行鼓励,对于不符合要求的地方进行惩罚。



最后通过这样来回的奖惩之中,AI 就会达到你理想的行为标准,生成你符合你想要内容的能力,成为你工作中某个场景下的长期助手。



好了,到这里我们就讲完了关于【训练 AI 技术面】的方法了~



但是我们也都知道,无论是知识还是技术,还是工具,它们最终的目的都是为了帮助我们创造实际的生存力所存在的。



如果达不成这个目标,那么即使你掌握了屠龙术,但是没有龙可屠,那么这个屠龙术也是和你没有毛关系的。



我们很多同学之所以拿到了 GPT,也掌握了 GPT 的使用方法,却仍然使用的频次很低,甚至完全用不起来的核心原因,就是因为你没有把 AI 与你所需要的应用场景关联起来。


推荐阅读

.

QQ客服

在线客服

咨询热线

158-1472-1319

返回顶部

企业微信