产品导航
  • 网页特效源码
    图片代码
    导航菜单
    选项卡/滑动门
    文字特效
    表单代码
    提示框/浮动层/弹出层
    DIV CSS
    html5 css3
    其他特效
  • 网站模板源码
    电脑、通讯、数码
    家具洁具、日用品
    建材、五金、装饰
    纺织、服装、鞋帽
    礼品玩具、工艺品
    家电、照明、电子
    文具、乐器、体育
    机电、仪器、设备
    食品、饮料、酒类
    汽车、摩托电动车
    能源、环保、节能
    冶金、金属、零件
    农业、水产、养殖
    矿产、石油、化工
    珠宝首饰、化妆品
    医药医器、保健品
    包装、印刷、造纸
    书画、艺术、收藏
    通用、其他制造业
    房地产、建筑装修
    餐饮、咖啡、茶楼
    咨询、策划、翻译
    金融、证券、典当
    健身、运动俱乐部
    家政、保洁、搬家
    医院、诊所、保健
    旅游宾馆、农家乐
    美容、休闲、养生
    婚庆、摄影、影楼
    仓储、物流、租车
    维修、保养、回收
    广告、会展、设计
    文化、教育、培训
    政府、协会、机构
    其他行业网站
  • 小程序源码
  • 游戏源码
  • 微信公众平台源码
  • 云虚拟主机
    全能型云虚拟主机
    海外免备案主机
    高防云享主机
    专业型云虚拟机
    Linux专业型云虚拟机
    .NET专业型云虚拟机
    JSP专业型云虚拟机
    百度云虚拟机(BCH)
  • 旅游系统
    旅游网站模板
    组合套餐
    产品应用
    营销应用
    内容应用
    供应分销应用
    插件接口应用
    SAAS版本应用
  • Cisco设备
    交换机
    路由器
    无线
    网络管理
    接口和模块
    光网络
  • IBM设备
    服务器
  • 华为设备
    交换机
    路由器
    WLAN
    存储
  • 智能设备

18093723998
搜索

用一个示例简单讲一下网站采集的的过程

 二维码
发表时间:2020-03-19 15:00
随着时代的发展,社会越来越信息快速化,所以信息更新非常的迅速,这让很多站长在更新自家的网站信息时,显得太浪费时间,该怎么办呢?那就是通过采集将别家的信息录入到自家网站的数据库中,这样做可能对网站的优化会有一定的影响,但这不是我们今天讨论的话题,今天就用一个示例简单讲一下网站采集的的过程
我们先来看下面的一个实例,这是客户的网站要求采集太平洋网站的新闻,代码如下图所示(附说明):
<?php
header("content-type:text/html;charset=utf-8");//


$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);//将为一个CURL会话设置选项。CURLOPT_URL参数是你想要的设置, 这是你想用PHP取回的URL地址,$url是这个选项给定的值
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);//如果有证书的https的,除去https里面的s,此句非常重要,不可删除,否则带有https的站点将无法打开
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//所获的内容不输出
$data=curl_exec($ch);//将页面的内容赋于$data,即$data就是我们打开网页后的内容代码
$data=iconv('gbk', 'utf-8',$data);//防止中文的乱码,做转码处理
curl_close($ch);//关闭cURL 会话
咱们先打开太平洋新闻网,然后查看网页源代码,找到要采集的信息内容,截图下图:

根据上面的代码,我们可以写一个正则表达:
$path = '#<i class="lpic"><a href="(.*?)" target="_blank"><img width="200" height="150" src="//www1.pconline.com.cn/images/blank.gif" (.*?)="(.*?)" alt=""> </a>
</i>
<dl><dt><a href="(.*?)" target="_blank">(.*?)</a></dt><dd><span class="des">(.*?)</span><p class="info"><span class="channel"><a href="(.*?)" target="_blank">(.*?)   </a></span><span class="date">|   (.*?)</span></p></dd></dl>#is';           preg_match_all($path,$data,$arr);//正则匹配,其中$path是匹配的规则,$data是想要匹配的内容,$datapath给定正则表达式 的匹配结果并且将它们以flag指定顺序输出到$arr中.
$array = array();//初始化一个数组
foreach($arr as $k=>$v){
if($k==3||$k==4||$k==5||$k==6||$k==9){ //想要的参数有哪些
$array[$k] = $v;}}
if(!empty($array)){
$array = array_values($array);//重置数组key,让数组的key从0开始计算,也可以不重置,但不要弄错
}
/*
其中
$array[0] 是信息的图片绝对地址的数组
$array[1] 是信息链接地址的数组
$array[2] 是信息标题的数组
$array[3] 是信息列表简介的数组
$array[4] 是信息时间的数组
    Print_r($array);根据输入的数组信息就知道如何把数据添加到数据库了,然后根据url再采集信息里面的详细内容,以达到采集整条信息的完整性
*/
关注我们
关于我们
天隆网络科技有限责任公司励志为顾客提供出更好的网站建设、二次开发、管理、维护系统等。本团队为此收录了大量的技术和相关人员。公司积极鼓励客户前来本站交流互动,积极鼓励为本站提出创新的好点子 本团队专注于企业的网站设计制作,为刚接触网站开发和运营的客户提供更好的帮助到你的解决方案。
服务范围
联系我们
QQ:1602299552
邮箱:dhtlit@qq.com
电话:18093723998
付款方式:现金,刷卡,支付宝,微信