专利详情

看准网维构(上海)文化传媒有限公司专利详情
网页数据抓取过滤方法
申请号
2011104480555
申请日期
2011/12/29
公布号
CN102567521A
公布日
2012/07/11
专利类型
发明公布
分类号
G06F17/30(2006.01)I
申请人
维构(上海)文化传媒有限公司
发明人
金炜杰
代理机构
上海申汇专利代理有限公司31001
申请人地址
上海市嘉定区宝安公路2762号2幢4055室
申请人邮编
201907
摘要
本发明公开了一种网页数据抓取过滤方法,包括如下步骤:a)获取网页Html代码;b)将Html转化为XML序列表;c)对XML序列表利用信息关键词进行模糊匹配获取网页数据。本发明提供的网页数据抓取过滤方法,通过先将Html全面XML序列化,再采用模糊过滤的方式获取XML文件中的网页数据,从而实现快速、较准确的对海量网站数据进行抓取及过滤。