论文阅读-双塔模型

Posted by 高庆东 on June 7, 2021

模型

Embedding-based Retrieval in Facebook Search 两个模型输出两个结果

Triplet loss 一个模型输入query 另一个模型输入 正负样本doc
双塔

数据构建有门道

正负样本的构建 负样本有两种选择 1从召回结果中选择未点击的属于hard-case 2随机采样一个数据, 直观上hard-case作为结果似乎训练的模型更优秀,但是实际上hard-case为模型
添加了一种偏差,导致识别不准,反而随机采样的结果才准

正样本构建 使用点击的或者排序靠前数据的数据作为正样本,实验结果是一样的