视频分类印象深刻,因为这是我亲手做的第一个增效工具。
审核的其中一个任务是保证视频分类信息的准确性,账号本身是有一个缺省分类的,内容上传之后默认使用账号的分类。但是也有一些账号,上传的内容不是特别垂直,有些内容的分类和账号分类不一致,这样就需要手动修改账号的分类,需要修改分类的内容大概占到总内容量的20%左右。
修改账号分类是一个非常耗时的工作,优化之前,质量审核的同事跟我说,接近一半的时间消耗在修改分类上面,也就是说,如果能够有效的提高修改分类的效率,那么对审核效率的提升会有直接的帮助。
修改分类消耗时间长,主要的原因也是交互困难,内容的总分类超过50个,要修改分类,需要从下拉列表框中选择相应的分类,这个过程是很消耗时间的。最初是用鼠标选择,尝试做了一些优化,支持通过键盘输入分类的首字母,但总的来说还是不尽如人意。
如何通过技术方案来优化修改分类功能,如果通过视频特征判断,最主要的困难还是运算量太大,所以考虑能不能通过标题来判断,很多标题的信息量是比较丰富的,足以帮助判断可能属于哪种分类了,于是做了一个分类建议的工具。
主要的处理流程,首先是对标题做分词,抛弃没有含义的虚词,把其他的词做向量化,并建立向量到分类的映射,通过样本数据对模型进行训练,然后针对训练好的模型输入新的标题,就可以给出可能的分类的建议。至于样本的更新,我请研发的同事把每天经过质量审核的分类结果,作为新的样本输入模型继续学习,不断提高模型的准确性。
分类模型可以根据概率给出0~3个分类建议,研发在前端做了相应的处理,会展示建议的分类,并提供了快捷键将当前内容的分类一键替换成某一个建议分类,如果能够命中建议分类,修改分类的操作效率大大提升。
视频分类工具上线初期可以达到85%以上的命中率,后来随着竖屏内容的比例增加,沉浸式播放对标题的要求比信息流低很多,很多内容就是一些标点符号或者干脆就是空的,分类的准确性有所降低,目前还可以保持在接近80%的水平。