metaseeker/metastudio采集淘宝宝贝的用户评论信息(3)

时间:2013/5/20 10:42:24  作者:未知  来源:网络  查看:89518  评论:0
内容摘要:为了采集用户评论信息,DataScraper必须模拟用户点击“评价详情”标签,所以,需要定义两个信息结构:第一个从样本页面上采集普通信息并模拟用户点击;第二个从用户评论列表中采集信息。这跟层级导航采集的原理一样,但是,普通的层级采集是导航到其它网页,而本例没有导航到其它网页,仅仅局部修改网页内容。

2.1.3 上载采集规则

点击MetaStudio工具条的schema按钮,将信息结构和MetaStudio自动生成的采集规则上载到服务器上,以便DataScraper随时随地采集网络内容。

2.2 定义第二级采集规则

2.2.1 准备工作

首先选择MetaStudio的菜单项“文件”-〉“创建工作台”清空工作台。
metaseeker/metastudio采集淘宝宝贝的用户评论信息

图4

清空工作台后,参照图4进行如下步骤:

    填写主题名demo_TB_comment
    将样本页面的网址手工拷入Theme Editor工作台的页面地址输入栏
    如果前面设置了反向选择模式,需要关闭这种模式
    因为关闭了反向选择模式,点击网页上的“评价详情”标签将激发浏览器从淘宝服务器上下载用户评论信息并显示在网页上。一直等待评论信息显示全了再进行下面的步骤
    选择菜单项“文件”-〉“刷新DOM”,刷新DOM树。此时设置反向选择模式并点击网页上的评论不会遇到图1显示的“Cannot find the node”错误。


2.2.2 数据采集规则
metaseeker/metastudio采集淘宝宝贝的用户评论信息
图5

图5显示如下步骤:

    为所有信息属性做数据映射和FreeFormat映射
    为了采集多条评论信息,采用样例复制品映射方法,详细说明参见《采集当当百货价格以建立比价系统》
    为了能够在网页上精确定位,定义了一个嵌套的整理箱,有两层容器节点,分别是评论和list,并且为顶层容器节点作FreeFormat映射,这并不是必须的,在2.1.1节已经详细说明了为什么要这么做。
metaseeker/metastudio采集淘宝宝贝的用户评论信息
图6

图6显示怎样设置AJAX采集模式,即勾选菜单项“延长模式”和“积极模式”,详细参见《卓越网翻页抓取不了怎么办》

图库精选