HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

构建类目猜测模型的第一步是构建训练样本

2023-12-04


构建类目猜测模型的第一步是构建训练样本,在电商领域,咱们能够将商品标题或用 户历史检索词与对应的类目构成一对,一对代表一条训练样本。如下表所示,构建相应的训练样本,并进行人工标示和二次审核。类目猜测模型是 一个多分类模型,一个检索词或许对应多个类目。


② 猜测成果的挑选

模型的输入为检索词,输出为或许相关的类目及对应的概率。由于类目猜测模型是一个多分类模型,所以单个检索词或许会输出多个相关类目。此时咱们需求针对类目猜测的相关性设置一个阈值,比方检索词与类目的猜测相关性超越 0.5 才说明两者之间的相关性可信。这个阈值需求依据实践训练出的模型在测试集上的验证作用进行确定。

③ 实践运用

实践运用时,咱们一般会将类目猜测模型分为线上和线下两部分。由于线上模型对实时性要求非常高,所以咱们将一部分类目猜测作业放在线下进行。由于每天查找引擎里边80% 以上的查找都是重复性查找,针对这部分检索词能够提早进行类目猜测,并经过人工方法对预估错误的检索词进行纠正,最终将类目猜测成果提早存储到 Redis 内存数据库中,线上运用时直接查询即可。针对另外 20% 的长尾检索词,可进行线上实时猜测。通 过此种方法能够大大减轻线上的体系压力。

  • 长处:泛化性强,关于长尾检索词,类目猜测的准确率很高。
  • 缺点:线上模型耗时较多,需求规划合理的体系架构。

三、相关性操控

除了上述介绍的类目猜测模型,在部分召回分支里比方语义相关性召回策略里,针对召回的成果还会单独再过一个相关性操控模型,去评估查找成果和Query之间的相关性,针对相关性较弱的查找成果进行过滤。

由于语义相关性召回从语义层面评估Query和文档的相关性,许多召回的物料在文本层面和检索词不具备任何相关性,所以实践运用时会呈现相应的用户体会问题。

为了尽量减少线上呈现的用户体会问题,体系里就需求单独规划一个相关性操控模型。相关性操控模型是一个二分类模型,专门针对向量召回的物料进行判别,评估其和检索词是否相关。

1. 相关性操控模型与语义相关性召回模型的差异

第一处是语义相关性召回模型输出的是检索词与文档的相似度,是一个详细数值,而不是类别。相关性操控模型输出的是类别,即相关或不相关。

第二处是语义相关性召回模型训练时运用的中心数据来自线上点击曝光数据,而相关性操控模型训练时运用的数据主要是人工标示数据,需求确保检索词与文档的严厉相关性。

2. 工业界实践运用

部分公司将相关性操控模型和语义相关性召回模型所需完结的任务合二为一,悉数由语义相关性召回模型完结。

首要,对语义相关性召回模型运用的训练样本进行人工审核, 确保训练样本的严厉相关性。其次,体系对语义相关性召回模型最终产出的相似度设置一个较高的阈值,确保返回的物料相关性很高。

模型拆分以后各端能够专心于优化自己的中心目标,模型融合在一起后既要确保高相关性,又要确保召回较多的物料,这两个优化目标在某种层面上是相悖的。详细是否进行拆分,视公司查找引擎的发展阶段和实践业务量 而定,现在头部互联网公司都将这两个模型拆分开,别离进行优化。

四、用户关于“精准度“的个性化偏好

之前提到过,不同用户关于“精准度”的偏好是不一样的,有些用户希望查找成果就是和自己查找词强相关的成果,有些用户能够接受查找成果中呈现一些没有那些精准的成果。

如何去了解不同用户的偏好进而去更好的满足用户的不同需求?一种方法能够经过体系探索,去打听用户的爱好。另一种就是像淘宝这样,能够经过调研问卷,让用户来主动反应,最终根据用户的反应来把控查找成果的精准度。


相关推荐