metaseeker/metastudio采集淘宝宝贝的用户评论信息(2)

时间:2013/5/20 10:42:24  作者:未知  来源:网络  查看:89450  评论:0
内容摘要:为了采集用户评论信息,DataScraper必须模拟用户点击“评价详情”标签,所以,需要定义两个信息结构:第一个从样本页面上采集普通信息并模拟用户点击;第二个从用户评论列表中采集信息。这跟层级导航采集的原理一样,但是,普通的层级采集是导航到其它网页,而本例没有导航到其它网页,仅仅局部修改网页内容。

+ + + + + + + + + + + + + + + + + + + + + +
2 定义采集规则

为了采集用户评论信息,DataScraper必须模拟用户点击“评价详情”标签,所以,需要定义两个信息结构:第一个从样本页面上采集普通信息并模拟用户点击;第二个从用户评论列表中采集信息。这跟层级导航采集的原理一样,但是,普通的层级采集是导航到其它网页,而本例没有导航到其它网页,仅仅局部修改网页内容。

2.1 定义第一级采集规则

2.1.1 数据采集规则
metaseeker/metastudio采集淘宝宝贝的用户评论信息

图2

图2有如下步骤:

    为所有信息属性作数据映射和FreeFormat映射,FreeFormat映射虽然不是必须的,但是可以大大提高采集规则的适应度,即使目标网站的网页结构修改了,采用FreeFormat技术可以在一定限度内确保采集规则不失效。
    为整个整理箱做FreeFormat映射,用以提高定位精度,其原理说明参见《采集新蛋网商品价格》


2.1.2 层级导航规则
metaseeker/metastudio采集淘宝宝贝的用户评论信息

图3

图3显示了很多步骤,并不是采集淘宝宝贝信息所特有的,而是我们期望通过这个案例讲解更多使用技巧。步骤如下:

    转到Clue Editor工作台,并点击newClue按钮创建一条线索(用于指导网络爬虫采集其它网页)
    设置成线内线索类型,但是不是为了翻页导航采集,而是为了导航到用户评论。关于线内线索和翻页采集请参见《批量采集当当网价格》
    点击Marker单选钮(radio button),表示根据网页上的记号定位线索,本例的记号就是文字“评价详情”
    通常情况下,一旦设置成线内线索,目标主题名称一栏就填入了当前主题名,可以参看翻页采集案例,但是,点击“评价详情”后,网页内容被局部修改了,而且要采集的用户评论显然与当前主题采集的商品信息属于不同语义范畴,所以,应该另起一个主题名,即填入:demo_TB_comment
    设置反向选择模式,以便快速定位DOM节点
    点击“评价详情”标签。因为设置了反向选择模式,所以,内嵌浏览器并没有向淘宝服务器发起下载评论信息的请求,相反,自动定位到DOM树上的对应节点
    在DOM树上找到代表整个标签条的那个节点,并作线索映射,表示在这个网页区域内定位线索
    在DOM树上找到包含内容“评价详情”的那个TEXT节点,做记号映射。应该注意到:这个记号的完整内容是“评价详情(”,后面的括号是不需要的
    设置记号模式,不勾选这个复选框,表示只要网页上出现记号值就表示符合规则,这叫包含模式,而不需要网页节点内容与记号完全一致,这叫相同模式,这是为了配合第8步和第10步。
    编辑记号值,删除后面的括号。第8、9、10三步是可选操作,察看生成的导航采集规则(点击viewSCE按钮)可以看到差别。


相关评论

图库精选