CROSS-FIELD RECOMMENDATION METHOD AND APPARATUS BASED ON BIG DATA
相关申请的交叉引用 本申请要求于2015年12月23日提交的中国专利申请号为“201510979783.7”的优先权,其全部内容作为整体并入本申请中。 本发明涉及互联网技术领域,尤其涉及一种基于大数据的领域交叉推荐方法及装置。 现有的针对多领域用户行为的分析方法相对简单。通过在不同领域内寻找与给定目标用户相近或相似用户的方式,实现目标用户的定位及用户推荐内容的生成。 现有技术的缺点是: 可解释性较差,无法建立不同领域行为特征的对应关系; 人为干预过多,需要定义用户距离的度量方式与阈值; 可扩展性差,无法通过建模结果对新用户进行快速建模和推荐。 发明内容 本发明要解决的技术问题是,提供一种基于大数据的领域交叉推荐方法及装置,对用户进行更精准的推荐服务。 本发明采用的技术方案是,所述基于大数据的领域交叉推荐方法,包括: 基于特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建
模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。 进一步的,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件。 进一步的,所述线下消费记录,包括:线下消费主题和线下消费品牌; 在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模,包括: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户); 基于所述特定用户集里的用户的线上检索记录进行主题建模LDA,得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 进一步的,所述根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率,包括: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,或者,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。
进一步的,作为一种可选的技术方案,针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐,包括: A1:针对任一具备所述利用搜索引擎的检索记录的目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; A2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 进一步的,作为另一种可选的技术方案,在任一所述目标用户还同时具备线下消费记录的情况下,针对所述目标用户,基于所述目标用户的线上输入记录以及所述转移概率,向所述目标用户进行线下行为的内容推荐,包括: B1:针对任一所述目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,P0(品牌|消费主题)是指根据所述目标用户的消费记录确定出的所述目标用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述目标用户的消费记录确定出的所述目标用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于
各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 本发明还提供一种基于大数据的领域交叉推荐装置,包括: 建模模块,用于基于特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 计算模块,用于根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 推荐模块,用于针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。 进一步的,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件。 进一步的,所述线下消费记录,包括:线下消费主题和线下消费品牌; 在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述建模模块,用于: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户); 基于所述特定用户集里的用户的线上检索记录进行主题建模LDA,得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 进一步的,所述计算模块,具体用于: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于
各品牌的消费数据的基础上,或者,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。 进一步的,作为一种可选的技术方案,所述推荐模块,具体用于: 针对任一具备所述利用搜索引擎的检索记录的目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; 根据P0(品牌|用户)向所述目标用户进行品牌推荐。 进一步的,作为另一种可选的技术方案,在任一所述目标用户还同时具备线下消费记录的情况下,所述推荐模块,具体用于: B1:针对任一所述目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,P0(品牌|消费主题)是指根据所述目标用户的消费记录确定出的所述目标用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述目标用户的消费记录确定出的所述目标用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,
P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 采用上述技术方案,本发明至少具有下列优点: 本发明所述基于大数据的领域交叉推荐方法及装置,通过将用户在不同领域比如线上输入和线下行为进行对接和交叉分析,得到领域之间用户行为特征之间的对应关系,根据建立起的对应关系向用户进行内容推荐。将本发明的技术方案应用在互联网+零售领域的用户消费品牌精准推荐以及消费品牌潜在客户精准定位方面,能够实现多领域用户的交叉引流、用户精准营销、及潜在客户的精准定位等一系列的问题,且效果十分明显,从线下仿真测试以及线上真实消费测试中,都极大地提高了品牌推荐、用户定位的精准度,同时对线下零售GMV(Gross Merchandise Volume,商品交易总量)有较大的提升。 图1为本发明第一实施例的基于大数据的领域交叉推荐方法流程图; 图2为本发明第二实施例的基于大数据的领域交叉推荐方法流程图; 图3为本发明第三实施例的基于大数据的领域交叉推荐装置组成结构示意图; 图4为本发明第五实施例的针对特定的用户集中的商场消费数据和百度检索数据进行数据打通对接的示意图; 图5为本发明第五实施例的针对商场会员集合A’中的用户的商场消费数据进行建模的示意图; 图6为本发明第五实施例的针对商场会员集合A’中的用户的百度检索数据进行建模的示意图; 图7为本发明第五实施例的通过运用双层概率图模型确定出检索主题与消
费主题之间的概率转移概率的示意图; 图8为本发明第五实施例的检索主题与消费主题的对应关系矩阵示意图; 图9为本发明第五实施例的第一检索图; 图10为本发明第五实施例的第二检索图;以及 图11示出了适于用来实现本发明实施例的基于大数据的领域交叉推荐方法的计算机系统的结构示意图。 为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。 本发明第一实施例,一种基于大数据的领域交叉推荐方法,如图1所示,包括以下具体步骤: 步骤S101,针对特定用户集进行研究,所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户,基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模; 具体的,在本实施例中,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件等。 进一步的,所述线下消费记录,包括:线下消费主题和线下消费品牌; 在步骤S101中,在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模,包括: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户);
基于所述特定用户集里的用户的线上检索记录进行主题建模LDA,得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 步骤S102,根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 具体的,步骤S102,包括: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,或者,优选的,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。 步骤S103,针对任一具备线上输入记录的目标用户,基于所述目标用户的线上输入记录以及所述转移概率,向所述目标用户进行线下行为的内容推荐。 具体的,步骤S103,包括: A1:针对任一具备所述利用搜索引擎的检索记录的目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; A2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 进一步的,可以选择P0(品牌|用户)中消费概率最高的或者处于前几位的品牌向目标用户进行推荐。
本发明第二实施例,一种基于大数据的领域交叉推荐方法,本实施例所述方法与第一实施例大致相同,即步骤S201~S202与第一实施例的步骤S101~S102相同,区别在于,如图2所示,本实施例的所述方法的步骤S203包括以下具体内容: 在任一所述目标用户同时具备利用搜索引擎的检索记录以及线下消费记录的情况下,针对所述目标用户,基于所述目标用户的线上输入记录以及所述转移概率,向所述目标用户进行线下行为的内容推荐,包括: B1:针对任一所述目标用户,按照下面的公式确定出该线上用户对于各品牌进行消费的概率P0(品牌|用户): 其中,P0(品牌|消费主题)是指根据所述线上用户的消费记录确定出的所述线上用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述线上用户的消费记录确定出的所述线上用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 本发明第三实施例,与第一实施例对应,本实施例介绍一种基于大数据的领域交叉推荐装置,如图3所示,包括以下组成部分: 1)建模模块301,用于基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户;
具体的,在本实施例中,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件等。 进一步的,所述线下消费记录,包括:线下消费主题和线下消费品牌; 在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述建模模块,用于: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户); 基于所述特定用户集里的用户的线上检索记录进行主题建模(Latent Dirichlet Allocation,简称LDA),得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 2)计算模块302,用于根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 具体的,计算模块302用于: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,或者,优选的,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。 3)推荐模块303,用于针对任一具备线上输入记录的目标用户,基于所述目标用户的线上输入记录以及所述转移概率,向所述目标用户进行线下行为的内容推荐。 具体的,推荐模块303用于:
针对任一具备所述利用搜索引擎的检索记录的目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; 根据P0(品牌|用户)向所述目标用户进行品牌推荐。比如:可以选择P0(品牌|用户)中消费概率最高的或者处于前几位的品牌向目标用户进行推荐。 本发明第四实施例,一种基于大数据的领域交叉推荐装置,本实施例所述装置与第三实施例大致相同,区别在于,推荐模块303具体用于: 在任一所述目标用户同时具备利用搜索引擎的检索记录以及线下消费记录的情况下,针对所述目标用户,基于所述目标用户的线上输入记录以及所述转移概率,向所述目标用户进行线下行为的内容推荐,包括: B1:针对任一所述目标用户,按照下面的公式确定出该线上用户对于各品牌进行消费的概率P0(品牌|用户): 其中,P0(品牌|消费主题)是指根据所述线上用户的消费记录确定出的所述线上用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述线上用户的消费记录确定出的所述线上用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,
P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 本发明第五实施例,本实施例是在上述实施例的基础上,以基于百度检索内容向商场消费的转化情况来进行品牌推荐为例,结合附图4~10介绍一个本发明的应用实例。 本发明实施例的主要思路是:通过将用户在领域1(商场消费)的数据与用户在领域2(百度搜索引擎检索)的数据进行打通与交叉建模,建模过程如下: 步骤1,对用户的商场消费数据进行主题建模分析,得到品牌的聚类特征(消费主题)信息以及用户在不同聚类上的消费权重; 步骤2,对用户的百度检索数据进行主题建模分析,得到关键词的聚类特征(检索主题)信息以及用户在不同聚类上的分布权重; 步骤3,假设每一个检索主题与每一个消费主题之间有一个概率转移关系,用户通过该概率转移关系将检索主题转化为消费主题,进而在不同的消费主题进行品牌消费。根据上述假设,使用步骤1、2中得到的结果,反推出检索主题与消费主题的对应关系。 步骤4,在得到该对应关系之后,可以分别针对现有用户与新用户进行更精准的推荐服务,以及针对给定品牌的情况下,更精准地实现品牌潜在目标客户的定位。 下面基于上述解决问题的思路,详细介绍一下是如果基于百度检索内容向商场消费的转化情况来进行品牌推荐的过程。 第一阶段,确定研究的用户对象,即特定的用户集,针对该特定的用户集中的商场消费数据和百度检索数据进行数据打通对接。 如图4所示,左边A表示商场会员的消费数据,右边A’表示商场会员对应的在百度的检索数据,右边的B表示商场的目标用户在百度的检索数据。可见,
本实施例先选取同时具备线下消费数据和线上检索数据的商场会员集合A’作为研究的用户对象。 第二阶段,基于该商场会员集合A’中的用户的线上检索数据和线下消费数据分别进行主题建模LDA,建模过程如下: 如图5所示,针对该商场会员集合A’中的用户的商场消费数据,进行LDA建模,根据每个用户的历史消费品牌,得到了品牌聚类特征P(品牌|消费主题)与每位用户的消费类型分布P(消费主题|用户)。品牌聚类特征即在各消费主题中对于各品牌进行消费的概率,每位用户的消费类型分布即每位用户对于各消费主题进行消费的概率。 如图6所示,针对该商场会员集合A’中的用户的百度检索数据,进行LDA建模,根据每个用户的检索词,得到了检索词聚类特征P(检索词|检索主题)与每位用户的检索主题分布P(检索主题|用户)。检索词聚类特征即各检索主题中输入各检索词的概率,每位用户的检索主题分布即每位用户对于各检索主题进行检索的概率。 第三阶段,根据建模结果进行推荐。 如图7所示,在前面得到的品牌聚类特征、用户的检索主题分布以及用户的实际品牌消费历史的基础上,通过运用双层概率图模型得到检索主题与消费主题之间的概率转移概率P(消费主题|检索主题)。 针对任一目标用户,根据如下公式生成用户的推荐内容: 其中,P0(品牌|消费主题)是指根据所述线上用户的消费记录确定出的所述线上用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述线上用户的消费记录确定出的所述线上用户对于各消费主题进行消费的概率; 目标用户可以是那些没有真实消费历史数据的用户,但该目标用户至少应具备百度的检索数据,用于确定出P0(检索主题|用户)。如果没有真实消费历史数据,
则只需要将上述公式中的P0(消费主题|用户)置为0即可。 下面简要的介绍一下本实施例的技术效果。 首先,该方案可以充分利用百度大数据的优势对其他领域的业务产生较大的业绩提升,让大数据真正发挥价值,实现真正的智能互联网+,与线上线下的真正打通。 其次,结合线下消费数据,可以帮助百度更好地理解到访用户,实现更精准、全面的用户刻画。形成数据闭环,帮助互联网广告更精准的投放。 以下分别充线下仿真测试及线上真实测试来说明使用百度大数据之后,对线下零售效率的提升效果: 以线下某零售商业地产为例,通过将其用户的消费数据与在百度的检索数据进行打通,按照本实施例的建模方法得到检索主题与消费主题的对应关系矩阵M,如图8所示,每一行表示一个线上检索主题对应的50个消费主题的概率分布,一共50行,表示一共有50个检索主题。 图8中的数值越大,表示这种对应关系越强,以该矩阵中的M(26,41)与M(46,10)为例,来说明这种对应关系的合理性。 M(26,41)表示标号为26的检索主题与标号为41的消费主题的对应关系,图8中显示这个对应关系很强,具体为: 矩阵中,M(26,41)为0.3,表示第一检索图9中左边检索词的用户的消费行为,有30%的概率会落在右边的这些品牌上。由图9不难发现,左边的检索主题为孕、婴、童,而右边的消费主题也为孕、婴、童,有很好的对应关系。 M(46,10)表示标号为46的检索主题与标号为10的消费主题的对应关系,图中显示这个对应关系很强,具体为: 矩阵中,M(46,10)为0.2,表示第二检索图10左边关键词的用户的消费行为,有20%的概率会落在右边的这些品牌上。由图10不难发现,左边的检索主题为化妆、护肤,而右边的消费主题也为化妆、护肤,有很好的对应关系。 另外,在线下仿真实验中,针对某一商场使用上述建模结果,相对于现有
技术中纯用线下模型向商场会员进行的品牌推荐准确率6.1%来说有交大提升,在加入百度检索数据后,品牌推荐准确率提升到11.1%。 在线上真实实验中,对某商场6.1儿童节的促销活动信息,寻找潜在的目标客户进行定向推送,通过考察这些目标用户的到场消费率来衡量技术效果,相对于现有技术中仅是基于会员消费历史向商场会员进行的品牌推荐的准确率7.49%来说也有交大的提升,加上百度检索数据之后,用户的到场消费率提升到11.6%,提升幅度54.8%。 综上所述,通过在商场消费数据中,加入百度检索数据之后,对商场会员的消费推荐准确率以及品牌推广过程中潜在客户的定位精度有了明显的提升。间接作用到商场的GMV提升。 下面参考图11,其示出了适于用来实现本发明实施例的基于大数据的领域交叉推荐方法的计算机系统1100的结构示意图。 如图11所示,计算机系统1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。 以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。 特别地,根据本公开的实施例,上文参考图1和图2描述的过程可以被实
现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行图1和图2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。 附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。 作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于大数据的领域交叉推荐方法。 通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
A cross-field recommendation method and apparatus based on big data. The method comprises: performing topic modeling separately on the basis of online input records and offline behavior records of users in a specific user set, wherein the users in the specific user set are users having both the online input records and the offline behavior records (S101); determining a transition probability from each online input topic to each offline behavior topic according to a topic modeling result (S102); and for any target user having the online input records, recommending a content of an offline behavior to the target user on the basis of the online input records of the target user and the transition probability (S103). The solution can realize cross-introduction of users among multiple fields, precise marketing for users, precise positioning of potential customers and the like, improving the precision in brand recommendation and user positioning, while greatly increasing the gross merchandise volume (GMV) of offline retail. 一种基于大数据的领域交叉推荐方法,其特征在于,包括: 基于特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。 根据权利要求1所述的基于大数据的领域交叉推荐方法,其特征在于,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件。 根据权利要求2所述的基于大数据的领域交叉推荐方法,其特征在于,所述线下消费记录,包括:线下消费主题和线下消费品牌; 在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模,包括: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户); 基于所述特定用户集里的用户的线上检索记录进行主题建模,得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 根据权利要求3所述的基于大数据的领域交叉推荐方法,其特征在于,
所述根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率,包括: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,或者,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。 根据权利要求4所述的基于大数据的领域交叉推荐方法,其特征在于,针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐,包括: A1:针对任一目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; A2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 根据权利要求4所述的基于大数据的领域交叉推荐方法,其特征在于,在任一所述目标用户还同时具备线下消费记录的情况下,针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐,包括: B1:针对任一所述目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户):
其中,P0(品牌|消费主题)是指根据所述目标用户的消费记录确定出的所述目标用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述目标用户的消费记录确定出的所述目标用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 一种基于大数据的领域交叉推荐装置,其特征在于,包括: 建模模块,用于基于所述特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 计算模块,用于根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 推荐模块,用于针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。 根据权利要求7所述的基于大数据的领域交叉推荐装置,其特征在于,所述线下行为记录,包括:线下消费记录; 所述线上输入记录,包括:利用搜索引擎的检索记录,和/或,通过输入法或者语音接收设备在特定应用中的输入记录;所述特定应用的类型,至少包括以下之一:聊天软件、搜索引擎、社交软件以及网上购物客户端软件。 根据权利要求8所述的基于大数据的领域交叉推荐装置,其特征在于,所述线下消费记录,包括:线下消费主题和线下消费品牌;
在所述线上输入记录为利用搜索引擎的检索记录的情况下,所述建模模块,用于: 基于所述特定用户集里的用户的线下消费记录进行主题建模,得到在各消费主题中对于各品牌进行消费的概率P(品牌|消费主题)、以及每位用户对于各消费主题进行消费的概率P(消费主题|用户); 基于所述特定用户集里的用户的线上检索记录进行主题建模,得到在各检索主题中输入各检索词的概率P(检索词|检索主题)、以及每位用户对于各检索主题进行检索的概率P(检索主题|用户)。 根据权利要求9所述的基于大数据的领域交叉推荐装置,其特征在于,所述计算模块,具体用于: 在每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,或者,在P(品牌|消费主题)、每位用户对应的P(检索主题|用户)以及所述特定用户集里的用户对于各品牌的消费数据的基础上,通过运用双层概率图模型得到从各检索主题到各消费主题的转移概率P(消费主题|检索主题)。 根据权利要求10所述的基于大数据的领域交叉推荐装置,其特征在于,所述推荐模块,具体用于: 针对任一所述目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; 根据P0(品牌|用户)向所述目标用户进行品牌推荐。
根据权利要求10所述的基于大数据的领域交叉推荐装置,其特征在于,在任一所述目标用户还同时具备线下消费记录的情况下,所述推荐模块,具体用于: B1:针对任一所述目标用户,按照下面的公式确定出所述目标用户对于各品牌进行消费的概率P0(品牌|用户): 其中,P0(品牌|消费主题)是指根据所述目标用户的消费记录确定出的所述目标用户在各消费主题中对于各品牌进行消费的概率,P0(消费主题|用户)是指根据所述目标用户的消费记录确定出的所述目标用户对于各消费主题进行消费的概率,是指针对所述特定用户集里的用户的线下行为记录中所涉及的所有消费主题求和,是指针对所述目标用户的检索记录中的所有检索主题求和,P0(检索主题|用户)是指根据所述目标用户的检索记录确定出的所述目标用户对于各检索主题进行检索的概率; B2:根据P0(品牌|用户)向所述目标用户进行品牌推荐。 一种设备,包括: 处理器;和 存储器, 所述存储器中存储有能够被所述处理器执行的计算机可读指令,在所述计算机可读指令被执行时,所述处理器执行基于大数据的领域交叉推荐方法,所述方法包括: 基于特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转
移概率; 针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。 一种非易失性计算机存储介质,所述计算机存储介质存储有能够被处理器执行的计算机可读指令,当所述计算机可读指令被处理器执行时,所述处理器执行基于大数据的领域交叉推荐方法,所述方法包括: 基于特定用户集里的用户的线上输入记录和线下行为记录分别进行主题建模;所述特定用户集里的用户均为同时具有线上输入记录和线下行为记录的用户; 根据主题建模的结果确定出从各线上输入的主题到各线下行为的主题的转移概率; 针对任一目标用户,基于所述转移概率以及所述目标用户的线上输入记录,向所述目标用户进行线下行为的内容推荐。
技术领域
背景技术
附图说明
具体实施方式










