metaseeker/metastudio采集淘宝宝贝的用户评论信息

时间:2013/5/20 10:42:24  作者:未知  来源:网络  查看:89450  评论:0
内容摘要:为了采集用户评论信息,DataScraper必须模拟用户点击“评价详情”标签,所以,需要定义两个信息结构:第一个从样本页面上采集普通信息并模拟用户点击;第二个从用户评论列表中采集信息。这跟层级导航采集的原理一样,但是,普通的层级采集是导航到其它网页,而本例没有导航到其它网页,仅仅局部修改网页内容。
对采集目标的描述:

    样本页面:http://item.tmall.com/item.htm?id=8517156144&source=dou&prc=2&cm_cat=50029375
    主题名
        demo_TB_detail:采集淘宝宝贝的普通信息
        demo_TB_comment:采集用户评论信息
    采集的内容
        采集商品信息
            商品名
            商品价格
        采集所有用户评论
            内容
            日期
            买家
            买家网址
        翻页采集所有评论信息

注释1:目标网站的网页结构可能会改变,一些重大改变将影响信息结构的可用性,如果加载本文提到的信息结构时发现某些信息属性(用于存储采集到的数据的字段)定位失败,请参照《修改失效的采集规则》调整信息属性的映射关系。

注释2:本文非入门教程,所以,不会将操作步骤一步步分解开并用屏幕截图显示出来,如果需要入门知识,请顺序阅读《MetaSeeker速成手册》。

+ + + + + + + + + + + + + + + + + + + + + +

 1 分析样本页面

在淘宝宝贝网页上,用户评论显示在“评价详情”标签(Tab)下,点击这个标签时,网页使用Javascript从淘宝服务器上将评价信息下载并显示出来。下面我们做个实验。
metaseeker/metastudio采集淘宝宝贝的用户评论信息

图1

图1有如下步骤:

    将样本页面加载到MetaStudio的内嵌浏览器中
    等待网页加载完成,此时,MetaStudio底部的状态条上显示“完成”字样。
    关闭反向选择,即复选框(checkbox)不要勾选。
    点击网页上的“评价详情”标签,可以看到网页内容改变了,用户评论信息显示了出来
    设置反向选择,以便快速定位DOM节点。
    选择一条评论信息,用鼠标点击它
    弹出一个对话框,显示“Error: Cannot find the node”,说明MetaStudio没有在DOM树上定位到对应于被点击的用户评论的DOM节点。如果定位成功,DOM树应该自动展开,并且在对话框中显示定位到的DOM节点号。

此时,选择MetaStudio的菜单“文件”-〉“刷新DOM”,再点击网页上的用户评论,成功定位到DOM节点。这说明一开始加载的网页上没有用户评论,用户评论是后来通过Javascript程序异步加载上来的。这是判断是否用AJAX显示网页内容的重要准则。

相关评论

图库精选