Chuwen 发布的文章

前方高能——本篇文章是攻城狮们根据日常收到的case整理而来,亲自编写,希望站长亲们给个好评哦!

平台攻城狮近日接到了百度内部用户的反馈,说 lvshi.baidu.com 站点的收录情况比较差,希望协助追查原因。

攻城狮追查的过程如下:

首先通过site语法检索,发现收录量确实比较少,只有11条,而且还发现一部分是死链数据。

然后根据用户反馈的部分url,检测发现这批链接在20161226日当天已经就已经抓取回来了,首次抓取上是没有问题;

http://lvshi.baidu.com/help/about/story

http://lvshi.baidu.com/help/about/contact

http://lvshi.baidu.com/help/user/guide

http://lvshi.baidu.com/help/user/question

http://lvshi.baidu.com/help/user/feedback

http://lvshi.baidu.com/help/cooperation/provider

http://lvshi.baidu.com/goods?categoryid=1

http://lvshi.baidu.com/goods/33

紧接着发现这批网页都被百度爬虫判定为空短页面,从网页库中获取当时的抓取页面,检查发现这些页面抓取回来的内容是一样的,都是提示让输入邀请码。

被百度爬虫判断为空短页面,肯定是不能被百度搜索收录的。

有站长可能会问,那等网站全部开放后,是不是就可以收录了呢?对于百度爬虫来说,当对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而收录也会比较慢。这里学院君再次强调一下,不要让爬虫给站点画上不优质的标签哦,后果很严重!

那么该如何避免呢?方法其实比较简单,网站在邀请测试阶段使用robots封禁就可以。

背景

这篇文章我是转载的;

前几天逛博客的时候发现的一个新玩意儿,名叫一言,之前的域名http://hitokoto.us/已经停止服务很长一段时间了。

所有今天把他加在博客的副标题了,感觉挺不错的。响应速度挺快的,而且还免费。(良心,赞一个)

好了,说了这么多。什么是一言呢?

动漫也好、小说也好、网络也好,不论在哪里,我们总会看到有那么一两个句子能穿透你的心。我们把这些句子汇聚起来,形成一言网络,以传递更多的感动。如果可以,我们希望我们没有停止服务的那一天。简单来说,一言指的就是一句话,可以是动漫中的台词,也可以是网络上的各种小段子。或是感动,或是开心,有或是单纯的回忆。来到这里,留下你所喜欢的那一句句话,与大家分享,这就是一言存在的目的。

——摘自一言

嗯,说简单点就是获取随机一句话。

下面就是本站调用一言接口的效果图:

本站使用的一言(看不到图片请刷新下本页面)

Demo(HTTP)

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title></title>
</head>
<body>
<div class="hitokoto">Test</div>

<!-- 首先引入JQ -->
<script src="http://cdn.myiooc.cn/jquery.min.js"></script>
<script>
    $.post("http://api.hitokoto.cn/",null,function(e){
        // $('修改的class名称')
        // e是json数据,里边还有其他内容可以看看文档
        $('.hitokoto').html(e.hitokoto+" —— <strong>"+e.from+"</strong>")}
    ,'JSON');
</script>
</body>
</html>

调用接口:

调用参数:

  • c:可选,有参数时返回对应分类,无参数时返回全部分类,参数:a – Anime - 动画,b-Comic – 漫画,c – Game – 游戏,d – Novel – 小说,e – Myself – 原创,f – Internet – 来自网络,g – Other – 其他
  • text:可选,有参数时输出纯文本,无参数返回全部JSON数据

最后是返回值,默认返回JSON数据。

返回参数:

  • id,本条一言的id值
  • hitokoto,一言正文
  • type,返回类型,取决于调用参数
  • from,一言出处
  • creator,一言创建者
  • created_at,创建时间

最后的最后,你还可以到一言发布你的一言,把你的心声分享给大家。

背景

这篇文章我是转载的;

进过我博客的朋友应该都记得,站点首页响应速度出奇的慢,然而还找不到原因。(好气啊)

经过@调调的提醒,突然就想起来可能是百度收录的锅(还是腾讯云的锅?)。

因为写在module.php每次输出文章都会在线查询一次,去掉试试?<( ̄︶ ̄)>

果然去掉百度收录后博客首页是秒开呀。但是想想不要百度收录查询感觉怪怪的。

话说怎么我博客一篇文章都还没被收录?好吧,偏题了。(会SEO的朋友私密我,谢谢)

所以便写了这么一个接口,同时也开通的SSL。

当页面结束后再利用AJax进行调用,响应速度不用说。(终于找到背锅的了(~ ̄▽ ̄)~)

调用地址

  • https://api.isecret.vip/api?type=baidu&url=http://blog.myiooc.cn

调用参数

  • type:必填,现在还只有baidu这一个参数,后边如果还写什么接口可能还会有更多
  • url:必填,填写需要查询的URL地址

返回格式

参数完整的话会返回一个JSON数据,格式:{"url":"http:\/\/baidu.com","status":1}

返回参数

  • url:即你查询的URL地址,
  • status:返回值只有0和1,0为未收录,1为已收录

调用实例

<script>
var urlArr = $('.api'); //需要先在HTML代码中给接口留一个位置并绑定固定的class
$(urlArr).each(function(i) {
var url = "https://api.isecret.vip/api?type=baidu&url="+urlArr[i].title; //这里title值存放查询链接
$.post(url,null,function(e){
if(e.status == 0){
$(urlArr[i]).html('百度未收录');
}else if(e.status == 1){
$(urlArr[i]).html('百度已收录');
}
},'JSON');
});
</script>

特别鸣谢

感谢Mrxn's Blog

这个是模拟QQ空间登录获取登录信息的程序,可同时获取SID、skey、P_skey、superkey,对于被封QQ空间的号码也能成功获取到登录信息。注意扫码无法获取SID。

2017.02.10_更新:更新扫码登陆协议

2016.11.23_更新:更新登录协议,增加QQ密码形式为MD5的获取

扫码登陆成功截图

密码登录截图

 

下载地址:[2017-02-10修复]QQ提取SID&SKEY&P_skey源码,密码和扫码两种方式.zip

演示地址:http://tool.ogdn.net/newsid

获取百度BDUSS的PHP源码,包含三种获取方式,分别是普通登录、快捷登录和短信验证码登录,可无视异地和登录保护,其中快捷登录模式可以一键获取(无需输入百度账号密码,也无需安装任何浏览器插件)

20170129004448.png

20170129004500.png

此为获取百度BDUSS的php源码,包含三种获取方式,分别是普通登录、快捷登录和短信验证码登录,可无视异地和登录保护,其中快捷登录模式可以一键获取(无需输入百度账号密码,也无需安装任何浏览器插件)

演示地址:http://tool.ogdn.net/bduss

下载地址:在线获取百度BDUSS源码.zip