融雪剂厂家
免费服务热线

Free service

hotline

010-00000000
融雪剂厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

专访李进斌火车头收集器站长的伴侣

发布时间:2020-07-24 11:10:03 阅读: 来源:融雪剂厂家

本次采访站长是火车头收集器网站 (locoy/)站长李进斌。 采访人:1滴水 被采访人:李进斌 相信大家对火车头收集器非常的熟习,它的发开者就是李进斌,一个80后年轻小伙子,网名火车头。

1滴水:你之前是程序员出身吗?

李进斌:不是。我是学水利的,大学毕业后还从事了一年的水利设计工作,辞职后才转行IT发展的。

1滴水:原来是这样的。那当时是如何想到转行做 IT的呢?

李进斌:两方面吧,对电脑及网络浓厚的兴 趣,和对枯燥的工程设计的反感,终究还是放弃了原来的主专业,不过还好。我在大学学了双专业,辞职前收到了phpcms老大加入团队的约请。

1滴水:去phpcms那边工作了吗?

李进斌:恩,我在phpcms做了大半年。 参 与开发了phpcms2007里面的很多功能。固然。这期间对我的提高很大。

1滴水:那火车头收集器是什么时候开始开发的,当初开发这样的软件的想法和初衷是什么,开发进程中有没有遇到甚么困难?

李进斌:火车收集器最早开发是在05年的11 月份。当时工作之余,业余保护着自己的一个小网站,有了和多数站长朋友一样在在网站添加内容及需要频繁数据更新的苦恼,在鉴戒了当时dede的收集思想后开始开发的这一款收集器。

火车收集器的发展过程中,早期也遇到过1些小的技术困难,这都在短时间内克服了,而最大的问题是在我辞掉本来很稳定的工作后, 收集器要继续发展是不是开发收费的版本的问题上犹豫了很长时间。在此要感谢我们的会员的支持,

没有他们我们不可能一直坚持而获得今天的成绩。

1滴水:刚才提到辞掉稳定的工作指的就是phpcms那边吗?

李进斌:不是,原来是在安徽水利厅的设计院工作。离开phpcms主要还是我个人生活方面的一点缘由,西安太远,然后女朋友习惯在老家这边。

其实在phpcms的时候就已发布了免费的火车收集器,前期版本。2007年9月份才开始全职做这个软件。

1滴水:那phpcms的老大给你过建议吗?

李进斌:固然是有的。我们现在一直都在联系,常常一聊就几个钟头,他和我一样都是技术出身,很有共同语言。

1滴水:呵呵,你们是老朋友了。现在愈来愈多的站长在使用火车头做网站,我们知道收集很多时候就意味着内容的重复致使信息泛滥,你怎样看待这个问题,您对主要靠收集软件来更新网站的站长们有甚么忠告或建议?

李进斌:首先网站需要延续的更新大家都知道,软件可以做为人手工的辅助工具,帮助我们做一些非常机械性的操作,收集器就是这样的一个软件,可以帮助你实现一个前期数据填充,但作为保护网站内容工具,不应当觉得越自动化的越好。

靠收集软件保护更新网站也没有错,我们现在还 有一批熟练司机也是靠软件在搜集资料,关键你应当清楚你的网站需要些什么样的内容,你又收集更新了些甚么,应当做到心里有数。

1滴水:最近发布的2009正式版有哪些重大的更新 ?

李进斌:对前期收集和后期数据处理都进行了很多改进,相比2008版本有很大提高,简单列几条:

支持gzipdeflate网页紧缩可大幅度提高网页 下载速度.

重写下载模块可以断点下载大文件下载不再是 问题.

支持上传附件.可以发布帖子时候上传附件到网站 更方便.

重写本地数据编辑功能加载更快处理更方 便.

支持外部编程插件可以做更加复杂的工作. 例如下载视频.

支持对多个标签进行分词.准确性更好.

可以随机发布和随机文件保存目录.

支持网址部份post随机值.那些aspx类型的网站网 址获得不再难.

支持列表页标签功能可以在列表页收集更多的信 息.

1滴水:功能是愈来愈强大了啊!

李进斌:恩。哈,按会员的建议一步步提升的,强大功能需要大家自己学习渐渐体验。

1滴水:目前很多网站加了防收集的功能,新版的火车头2009解决这个问题了吗?

李进斌:关于防收集这一块。打开一个网页实际就是浏览器发送一个Http要求。还有其他的搜索引擎蜘蛛,一样我们的收集器使用的都是一个原理--摹拟要求,我们可以根据这个原理摹拟出浏览器、蜘蛛出来。所以绝对的防收集根本不存在,只是难度的高低。如果你认为搜索引擎的搜录也无所谓了。你可以用一些非常强大的activexflash全图片文字的情势,这个我们无能为力。

2009新版软件加强了对来源判断,登录信息判断 ,POST方式要求,多页分页辨认和循环内容收集等功能,外加 php和外部程序接口等,我们并没有发现多少做得非常好的防收集网站,只是一个难度高低的问题。

1滴水:哈哈!看来火车头做的是愈来愈完善了。

1滴水:火车收集器还分为免费版本、个人版、标 准版、企业版。那末这些版本是如何分类的, 他们分别适用于哪些人群呢?

李进斌:主要也是按功能多少来进行划分的,你需要根据自己的需求来选择。高级版本在后期数据处理,大文件下载及上传,自动化操作,分词翻译等方面功能有很大增强。

1滴水:对大多数站长来讲,免费版本的就足够用了吧!

李进斌:是的。我们没有限制收集的站点及任务的数量,也没有对在线web发布做任何限制。对普通用户来讲,已足够使用了。

1滴水:恩。现在可能有一些新的站长还不会使用火车头,你对他们有何建议?

李进斌:首先应当抱着一个学习的心态,我们不是一个一键就可以收集发布的软件。而是会有很多很多的设置,这些设置都需要你手工和操作配置1遍。

当你对软件的各个功能都有了大致的了解后,你 就会感觉如鱼得水,完全按你的意愿操作,网站数据更新也一样是件很快乐,很有挑战性的事情。

固然在你收集前,有几个建议:

1.他人常常采的网站不要 去采

2.太容易采的网站不要去采

3.不要一次性收集太多,一定要注意后期处理

4.做好关键词,tag的收集分析

5.自己网站要有自己的定位,不采与自己网站无 关的内容

6.收集也要有持续性,常常更新,自动收集功能 我们也有,但还是建议大家人工也参与一些审核,或定时,乱序发布

后期处理方面

1.给标题。内容分词

2.使用同义词近义词替换,排除敏感词,不同的 标签之间数据融会,指如标题内容之间数据的相互替换

3.给文章加上摘要

4.为文章标题等生成拼音地址

5.收集一些其他编码的网站,我们可以做到简繁 体转化,可以收集中文网站翻译成英文(虽然比较垃圾,但应当可以算是原创)

我们也发现,高难度收集的网站一般内容质量都非常好,收集其实有时也是一件很有乐趣的事情,需要你学习一些收集相干的知识。

1滴水:非常感谢你分享如此宝贵的经验。谢谢!

1滴水:火车头现在的开发和推行团队有多少人? 跟大家介绍下你的团队。

李进斌:前天新搬了一个办公地点,公司规 模又略微扩大了一点。现在开发主要是4个人,客服和推行6个。还有几个长时间活跃在论 坛服务的版主。

1滴水:范围渐渐在发展壮大啊!呵呵!

1滴水:在这里也跟大家谈谈你们团队的优势和你们的服务好吗?

李进斌:恩,好的。这里面有我的同学也有从网络认识发展到现实的朋友,都很年轻,为了一样的兴趣在一起拼搏。我们虽然没有 很深的工作背景,但学历都还可以几个是211出来的,干劲足,非常有豪情。

除运营收集器外,也兼在做几款其他的自动收集搜索软件,可以为广大站长提供这些方面的技术服务。

李进斌:自动收集搜索软件主要是指:数据 收集、转移、处理及索引优化。可以为广大站长提供这些方面的技术服务。

1滴水:恩,渐渐拓展出更多更好的技术,站长会愈来愈喜欢你们。

李进斌:感谢小苏。

1滴水:太客气了!你们的盈利模式是什么?

李进斌:商业软件的收入。部份技术服务支持,和其他一些定制软件的开发。不是太高但足以支持全部团队,公司成立还不足1 年,公司的发展和新的盈利模式还在探索中。

1滴水:恩,希望你们探索出更有价值的东西,来更好的服务站长朋友们。最后谈一下你们未来的发展方向。

李进斌:稳住收集方面的地位,继续提高竞争力,努力转型实现为更多的企业提供数据服务。

1滴水:小苏在这里代表门户通的所有站长朋友们祝愿你们的明天愈来愈美好!谢谢!

李进斌:恩。感谢门户通给提供的这次机会 ,谢谢大家。

癫痫病发作怎么处理

贵州看癫痫病医院

癫痫怎么办

哈尔滨癫痫病专科医院