METHOD AND DEVICE FOR PROVIDING WEBSITE AUTHENTICATION DATA FOR SEARCH ENGINE

02-06-2016 дата публикации
Номер:
WO2016082616A1
Контакты:
Номер заявки: CN07-09-201581
Дата заявки: 25-09-2015

为搜索引擎提供网站认证数据的方法及装置
[1]

相关申请的交叉引用

[2]

本申请享有2014年11月27日提交的专利申请号为201410706699.3、名称为“为搜索引擎提供网站认证数据的方法及装置”的中国专利申请的优先权,该在先申请的内容以引用方式并入本文本中。

技术领域

[3]

本发明涉及计算机领域,尤其涉及一种为搜索引擎提供网站认证数据的方法及装置。

背景技术

[4]

搜索引擎在根据用户输入的搜索关键字进行搜索时,为保证搜索结果的可信赖性,需获取相应搜索结果链接的认证数据,如图6中所示,“V2”对应的方框中的内容即为该条搜索结果的部分网站认证数据。目前,由于各网站认证数据分散于不同的业务(例如,百度统计、百度口碑、百度百科等)中,搜索引擎在搜索该网站认证数据时,需要基于搜索结果的URL(统一资源定位符)到不同的业务中搜索,例如,需要在口碑认证业务中搜索网站的网民评论数据,在电话认证业务中搜索网站的电话认证数据。从不同业务搜索获取的认证数据可能是重复或者没有更新的。因此,现有的搜索引擎搜索网站认证数据的效率较低,从而影响搜索引擎搜索速度和认证数据的准确度。

[5]

发明内容

[6]

本发明解决的技术问题之一是快速为搜索引擎提供分散于多个认证数据来源的网站认证数据,提高搜索引擎搜索速度。

[7]

根据本发明一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的方法,其中,包括:

[8]

接收来自多个认证数据来源的网站认证数据;

[9]

存储所述网站认证数据;

[10]

在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

[11]

可选地,存储所述网站认证数据包括:

[12]

直接存储接收的所述网站认证数据;或

[13]

将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。

[14]

可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:

[15]

将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

[16]

可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:

[17]

从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及

[18]

将以同一用户标识为索引的数据合并。

[19]

可选地,还包括:

[20]

从接收的网站认证数据中过滤掉重复的网站认证数据。

[21]

可选地,存储所述网站认证数据还包括:

[22]

存储所述网站认证数据的更新时间。

[23]

根据本发明另一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的装置,其中,包括:

[24]

接收单元,用于接收来自多个认证数据来源的网站认证数据;

[25]

存储单元,用于存储所述网站认证数据;

[26]

发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

[27]

可选地,存储单元包括:

[28]

重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索 的数据结构;

[29]

存储子单元:用于存储重组后的网站认证数据。

[30]

可选地,所述重组子单元具体用于:

[31]

将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

[32]

可选地,所述重组子单元具体用于:

[33]

从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及

[34]

将以同一用户标识为索引的数据合并。

[35]

可选地,还包括:

[36]

过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。

[37]

可选地,存储单元还用于:

[38]

存储所述网站认证数据的更新时间。

[39]

由于本实施例可以接收来自多个认证数据来源的网站认证数据,并可以将该接收的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到分散于多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。

[40]

本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。

附图说明

[41]

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

[42]

图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。

[43]

图2是根据本发明另一个实施例的为搜索引擎提供网站认证数据 的方法的流程图。

[44]

图3是根据本发明一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。

[45]

图4是根据本发明一个实施例的存储单元结构示意图。

[46]

图5是根据本发明另一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。

[47]

图6是背景技术中搜索引擎搜索并显示的部分网站认证数据的示意图。

[48]

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

[49]

下面结合附图对本发明作进一步详细描述。

[50]

图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为为搜索引擎提供网站认证数据的装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

[51]

如图1中所示,本实施例所述为搜索引擎提供网站认证数据的方法主要包括如下步骤:

[52]

S100、接收来自多个认证数据来源的网站认证数据;

[53]

S110、存储所述网站认证数据;

[54]

S130、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

[55]

下面对各步骤做进一步详细介绍。

[56]

步骤S100中,接收来自多个认证数据来源的网站认证数据可以 为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。

[57]

其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。

[58]

对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。

[59]

其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。

[60]

本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:

[61]

一类为主动认证数据:

[62]

该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网 站认证数据对应同一userid的情况。

[63]

另一类为被动认证数据:

[64]

该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。

[65]

需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。

[66]

步骤S110中,存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找,有利于加快搜索引擎检索网站认证数据的速度。

[67]

在存储网站认证数据时,可保存更新时间,例如,在相应的网站认证数据的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。

[68]

另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,可过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。其中,可在接收网站认证数据后,存储该网站认证数据前执行该过滤操作。

[69]

例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。

[70]

步骤S120中所述内容,是在接收到搜索引擎检索所述网站认证 数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。

[71]

本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到来自多个认证数据源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。

[72]

如图2中所示为根据本申请另一实施例的为搜索引擎提供网站认证数据的方法,该方法主要包括如下步骤:

[73]

S200、接收来自多个认证数据来源的网站认证数据;

[74]

S210、将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据;

[75]

S220、存储所述重组后的网站认证数据;

[76]

S230、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎。

[77]

下面对各步骤做进一步详细介绍。

[78]

步骤S200中,接收来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。

[79]

其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可 接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。

[80]

对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。

[81]

其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。

[82]

本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:

[83]

一类为主动认证数据:

[84]

该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。

[85]

另一类为被动认证数据:

[86]

该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。

[87]

需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。

[88]

另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。

[89]

例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。

[90]

步骤S210中,将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。

[91]

具体的,可将网站认证数据重组成以URL(Uniform Resource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid可以检索到网站完整的网站认证数据。

[92]

其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作步骤:

[93]

首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;

[94]

例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:

[95]

Userid—>{(URL 1/URL 2/URL 3…),公司相关信息};和

[96]

URL—>{口碑相关信息}。

[97]

其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。

[98]

所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid—>{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:

[99]

URL1—>{Userid,公司相关信息}、URL2—>{Userid,公司相关信息}、URL3—>{Userid,公司相关信息}…;

[100]

假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:

[101]

URL—>{口碑相关信息,公司相关信息};以及

[102]

URL2—>{Userid,公司相关信息};

[103]

URL3—>{Userid,公司相关信息}…。

[104]

之后,将以同一Userid为索引的数据合并。

[105]

如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid—>{公司相关信息}。

[106]

上述两组键值对重组后得到的网站认证数据为:

[107]

URL—>{口碑相关信息,公司相关信息};以及

[108]

URL2—>{Userid,公司相关信息};

[109]

URL3—>{Userid,公司相关信息}…;

[110]

Userid—>{公司相关信息}。

[111]

可以理解的是,由于网站认证数据有可能随时更新,则上述重组的键值对可根据更新后的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。

[112]

步骤S220中,存储重组后的网站认证数据的目的在于,当搜索 引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找认证网站的网站认证数据,有利于加快搜索引擎检索网站认证数据的速度。

[113]

在存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。

[114]

另外,在存储所述重组后的网站认证数据的同时可保存更新时间,例如,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。

[115]

步骤S230中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。

[116]

本实施例所述为搜索引擎提供网站认证数据的方法,可以将来自多个认证数据来源的网站认证数据重组成便于搜索引擎检索的数据结构,并存储重组后的网站认证数据,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的重组后的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到重组后的完整的网站认证数据,从而可有助于提高搜索引擎的搜索速度。

[117]

上述为本申请实施例提供的为搜索引擎提供网站认证数据的方法,基于上述方法同样的思路,本申请实施例还提供一种为搜索引擎提供网站认证数据的装置,如图3中所示,该装置主要包括:接收单元300、存储单元310及发送单元320。

[118]

其中,接收单元300,主要用于接收来自多个认证数据来源的网站认证数据。

[119]

具体的,该接收单元300接收的来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。

[120]

其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。

[121]

对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。

[122]

本实施例中所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的完整认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。

[123]

本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:

[124]

一类为主动认证数据:

[125]

该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况, 也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。

[126]

另一类为被动认证数据:

[127]

该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。

[128]

需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。

[129]

其中,存储单元310,主要用于存储所述网站认证数据;

[130]

存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取原本分散在多个认证数据来源的网站认证数据,而不需在所述多个认证数据来源中分别查找,有利于加快搜索引擎检索网站认证数据的速度。

[131]

一种实施例,该存储单元310可以直接存储接收单元300接收的网站认证数据。

[132]

另一实施例,如图4中所示,该存储单元310可进一步包括如下子单元用于存储网站认证数据:重组子单元3101和存储子单元3102。

[133]

重组子单元3101:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;

[134]

该重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。

[135]

具体的,重组子单元3101可将网站认证数据重组成以URL(Uniform Resource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid 可以检索到网站完整的网站认证数据。

[136]

其中重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作:

[137]

首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;

[138]

例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:

[139]

Userid—>{(URL 1/URL 2/URL 3…),公司相关信息};和

[140]

URL—>{口碑相关信息}。

[141]

其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。

[142]

所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid—>{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:

[143]

URL1—>{Userid,公司相关信息}、URL2—>{Userid,公司相关信息}、URL3—>{Userid,公司相关信息}…;

[144]

假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:

[145]

URL—>{口碑相关信息,公司相关信息};以及

[146]

URL2—>{Userid,公司相关信息};

[147]

URL3—>{Userid,公司相关信息}…。

[148]

之后,将以同一Userid为索引的数据合并。

[149]

如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid—>{公司相关信息}。

[150]

上述两组键值对重组后得到的网站认证数据为:

[151]

URL—>{口碑相关信息,公司相关信息};以及

[152]

URL2—>{Userid,公司相关信息};

[153]

URL3—>{Userid,公司相关信息}…;

[154]

Userid—>{公司相关信息}。

[155]

可以理解的是,由于网站认证数据有可能随时更新,则重组子单元3101可根据更新后的网站认证数据对上述重组的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。

[156]

其中存储子单元3102:用于存储重组后的网站认证数据。在存储子单元3102存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。

[157]

另外,本实施例的存储单元310,在存储网站认证数据时,可保存更新时间,例如,针对重组后的网站认证数据,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。

[158]

其中发送单元320,主要用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。

[159]

可选地,如图5中所示,本实施例所述装置还可包括:

[160]

过滤单元330,主要用于从接收的网站认证数据中过滤掉重复的网站认证数据。

[161]

为避免重复接收同一网站的相同内容的网站认证数据,在接收单元300到网站认证数据后,由过滤单元330过滤掉重复的网站认证数据,可通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。

[162]

例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。

[163]

本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据来源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到原本分散在多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。

[164]

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

[165]

另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执 行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

[166]

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。



[1]

Provided in the present invention are a method and device for providing website authentication data for a search engine, the method comprising: receiving website authentication data from a plurality of authentication data sources; storing the website authentication data; upon receipt of a request from the search engine retrieving the website authentication data, transmitting the stored website authentication data to the search engine. In this method, complete website authentication data can be rapidly found by the search engine, ensuring an improved searching speed of the search engine.

[2]



一种为搜索引擎提供网站数认证据的方法,其中,包括:

接收来自多个认证数据来源的网站认证数据;

存储所述网站认证数据;

在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

根据权利要求1所述的方法,其中存储所述网站认证数据包括:

直接存储接收的所述网站认证数据;或

将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。

根据权利要求2所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:

将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

根据权利要求3所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:

从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及

将以同一用户标识为索引的数据合并。

根据权利要求1-4中任一项所述的方法,其中还包括:

从接收的网站认证数据中过滤掉重复的网站认证数据。

根据权利要求1所述的方法,其中存储所述网站认证数据还包括:

存储所述网站认证数据的更新时间。

一种为搜索引擎提供网站认证数据的装置,其中,包括:

接收单元,用于接收来自多个认证数据来源的网站认证数据;

存储单元,用于存储所述网站认证数据;

发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。

根据权利要求7所述的装置,其中存储单元包括:

重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;

存储子单元:用于存储重组后的网站认证数据。

根据权利要求8所述的装置,其中所述重组子单元具体用于:

将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。

根据权利要求9所述的装置,其中所述重组子单元具体用于:

从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及

将以同一用户标识为索引的数据合并。

根据权利要求7-10中任一项所述的装置,其中还包括:

过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。

根据权利要求7所述的装置,其中存储单元还用于:

存储所述网站认证数据的更新时间。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被执行时,如权利要求1至6中任一项所述的方法被执行。

一种计算机程序产品,当所述计算机程序产品被执行时,如权利要求1至6中任一项所述的方法被执行。

一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机代码,所述处理器被配置来通过执行所述计算机代码以执行如权利要求1至6中任一项所述的方法。