[2008-11-16]

最近一周都没有去招聘会,周围的人开始陆续有找到工作的,我有点慌了。不过也没有闲着,前几天整理电脑,发现平时收藏的电子书都要将近4G了,就统统上传到了QQ邮箱的中转站,以备不测。结果昨天一个不小心就格式化了一个盘,万幸资料都找回来了。再次证明了未雨绸缪的重要性。所有的电子书都在这里了:http://book.heeyer.com

周末的两天时间,也了一个搜索引擎抓取程序。程序本身并不太复杂,在本地调试的差不多以后,上传到服务器居然一点作用也没有。郁闷了一个下午才发现原来我的服务器禁了File函数的外部内容抓取,然后就是google的url编码问题,比如,同样搜索”理想”,在百度是”%C0%ED%CF%EB”,而google却是”%E7%90%86%E6%83%B3″,一个GB2312一个utf8。这个问题纠缠我将近一整天时间,结果解决的也比较诡异,也许一开始我就想复杂了,囧。

简单介绍一个这个抓取程序,左边是百度的搜索结果,右边是Google的搜索结果。对于百度结果,过滤掉了一些明显的”推广”连接,因为有时候百度的第一页搜索结果全是”推广”时真的很烦人,比如这里。如果有广告被过滤会在左上角显示过滤的条数。Google的搜索结果,过滤掉了一些图片的显示,主要的原因是显示图片的话右边就太长了,两边太不对称,难看。google的抓取结果来自google.com而非google.cn,所以英文结果会多一些。

存在的几个问题:最主要的还是界面太难看,不过以我的UI造诣,改进的空间似乎已经不大了。其次就是在百度首页10条推广时自动调取第二页的结果。这个比较难办,因为我的两个搜索引擎是共用一套$_GET值传递的。还有就是关键字中包含特殊符号的话会随机出现bug。

慢慢来吧,有点累了。


当前日志信息