全球主机交流论坛

标题: 采集是个辛苦活。。 [打印本页]

作者: 荷兰小事    时间: 2011-7-1 22:06
标题: 采集是个辛苦活。。


写好正则了又要调试。。。。。

调试好了又要换ip。。。。。。

等下又出现content missing之类的错误。。。。。。



搞半天
作者: 荷兰小事    时间: 2011-7-1 22:08
错了一点都不行。。

采集空内容又要费力数据库查询出来再删除
作者: samuel    时间: 2011-7-1 22:22
据说原创最简单,对着键盘练一指禅就行了。
真是太容易了!
作者: a219549    时间: 2011-7-1 22:44
原帖由 samuel 于 2011-7-1 22:22 发表
据说原创最简单,对着键盘练一指禅就行了。
真是太容易了!


作者: 难人    时间: 2011-7-1 22:46
et
作者: salang    时间: 2011-7-1 22:47

作者: xtmp    时间: 2011-7-1 22:50
不会就是辛苦活,会采就很爽
作者: 荷兰小事    时间: 2011-7-1 23:22
就是不会啊
作者: Poison    时间: 2011-7-1 23:33
内容为空的 直接剔除掉不入库呗
作者: 荷兰小事    时间: 2011-7-2 02:25
那采集的时候不是要加判断。。加判断会拖慢效率吧。。
作者: 糕手    时间: 2011-7-2 02:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: leaderweb    时间: 2011-7-2 07:35
楼主采集的啥呀?什么站?
作者: 金关村村长    时间: 2011-7-2 16:22
原帖由 leaderweb 于 2011-7-2 07:35 发表
楼主采集的啥呀?什么站?


ass。。xxx content -----
作者: 金关村村长    时间: 2011-7-2 16:23
原帖由 糕手 于 2011-7-2 02:40 发表
尼玛的 直接开火车就OK了  何必去写神马正则 搞死人......


火车就更加麻烦了,比curl还要麻烦,而且远没有curl灵活
作者: 东方星雨    时间: 2011-7-2 20:53
我用帝国就很爽,没那么复杂,或者火车头。
作者: 草鸣    时间: 2011-7-2 21:15
写好采集规则就万事无忧了……
作者: 大鲨鱼    时间: 2011-7-3 09:19
被k 时 死的 更惨
作者: 金关村村长    时间: 2011-7-3 18:17
哪有那么容易被k

google现在判断是否重复内容使用的听说是simhash算法,采集的时候不要傻傻地完全copy过来就好了,要多篇文章合并成一篇,这样就很可能不会被判断为镜像网页,被k几率很小




欢迎光临 全球主机交流论坛 (https://fd.vvwvv.eu.org/) Powered by Discuz! X3.4