时间:2023-03-06 09:02编辑:九州下载来源:www.wzjsgs.com
属于机器学习常见流程的是数据获取、特征提取、模型训练和验证、线下测试、线上测试。
1、数据获取:首先从线上拉取用户真实数据,用现有模型过一遍这些数据得到一些有用的信息作为标注人员的一个参考,加快标注速度;标注完成后,数据入库并解决冲突,冲突即是同一个query,两次标注结果不一致,解决冲突的办法一般是人工check,得到一个更准确的标注;
2、特征抽取:NLP任务一般需要抽取数据的特征,如ngram、词典特征、词向量特征、上游模块的输出等。一般离线和在线均需要特征抽取,所以离在线的这部分代码是共用的,避免在线特征抽取和离线不一致。抽取特征时有个小技巧是把能想到的特征均抽取出来,并保存成文本文件,避免重复的执行特征抽取的步骤,在实验的时候用mask的方式去屏蔽掉那些对模型没用的特征,因为针对神经网络这样的模型,值为0的特征一般不影响最终结果(如tanh/ReLU等,但sigmoid激活层可能会影响)。这样抽取出来的特征的格式一般还不能满足机器学习框架的要求,通过脚本转化成机器学习框架要求的格式即可。
3、模型训练和验证:常用的模型训练和验证步骤是:首先以一个简易的算法开始,快速的进行实现,并在交叉验证集上进行验证;然后画出它的学习曲线,通过学习曲线确定是否更多的数据或者更多的特征会对模型的优化有帮助。接着人为地检测交叉验证集中被错误的进行分类的或者预测的样本的共同特征,从实际入手对模型进行调整,不断调整并验证在交叉验证集上的误差,寻找最优的结果,优化模型。
4、线下测试:指在模型验证有提升后,在测试集上测试模型的性能指标。线下测试可以将模型集成在应用程序里测试,也可以单独测试模型。线下测试的指标一般跟具体的业务需求相关,包括:准确率(accuracy)、精确率(precesion)、召回率(recall)、F1值等。
5、线上测试:是模型上线后的测试,是跟业务紧密相关的一个指标。在实际工作中,一般先将版本上线至一个复制小流量环境,打到这个环境的流量同时也打到线上环境,然后同时取出线上环境的结果和复制小流量环境的结果,抽出两者的diff,人工做gsb(good bad same),即针对有diff的case,人工标注小流量好(good),还是线上好(bad),或者两者打平(same),如果good多于bad,说明gsb通过,可以上线供用户体验。这种方法与A/B testing类似。模型上到线上后,可以通过用户行为反馈模型的好坏,如用户点击、pv等。
在游戏恶意不息中玩家的对于加点的选择是非常重要的,这会直接影响玩家对于武器和装备的选择。但是很多玩家都不知道应该怎么加点才是最适合自己的属性,导致很多玩家不敢轻易的加点属性。下面小编会根据玩家不同的时期推荐不同的加点方式。
2024-05-19 08:57七日世界是一款非常有趣的生存战斗游戏,在游戏中玩家需要击杀各种不同的敌人来获取材料,一部分的材料是能够用于交付任务的。其中林中的呓语任务就是比较困难的任务,很多玩家都不知道怎么完成这个任务。下面小编会详细的告诉大家怎么完成这个任务。
2024-05-19 08:43夜族崛起是一款融合了西方吸血鬼为主题打造的生存类游戏,在游戏中玩家需要建立自己的城堡获取成长的机会。游戏玩法很少有玩家解除类似的游戏,所以很多玩家都不知道应该怎么进行游玩。下面小编会详细的告诉大家夜族崛起游戏中的小技巧。
2024-05-19 08:38洛克王国游戏中最近的五月迎来了全新的活动密林寻踪,目前在5月10日已经正式上线了,并且本次的活动将会持续一个月,只要参与活动并且完成挑战就能够获得宠物藤森食人花和百战大王花的进化资格。下面小编会告诉大家应该怎么游玩本次活动。
2024-05-19 08:35DNF手游中不同的职业技能表现和能力都有所不同,将所有的技能串联到一起就能够形成连招,能够直接造成巨大的伤害。但是对于不熟悉的职业想要进行完美的连招是需要多多去练习才能够做到的事情。下面小编会告诉大家应该怎么进行连招操作。
2024-05-19 08:30猫咪和汤中主要的玩法就是休闲养成类,在游戏中玩家能够根据自己的想法进行扩展森林。但是如果随便的扩展就会导致游戏整体变得比较混乱,所以一个有规划的进行扩建是非常重要的事。下面小编会详细的告诉大家应该怎么扩展以及扩展的一些小技巧。
2024-05-19 08:23发布日期:2023-04-03人气:6222
发布日期:2023-01-18人气:2636
发布日期:2023-01-19人气:2533
发布日期:2023-01-19人气:1637
发布日期:2023-01-01人气:1577
发布日期:2023-01-18人气:1566
发布日期:2023-02-04人气:1488
发布日期:2023-01-19人气:1411