火车头采集软件任务地址库的正确处理

0

分类 : 网络日志 | 发表时间 15-03-2010

火车头是一个不错的采集软件,“盗亦有道”,看你如何利用了。

Linker以前也偶尔研究下火车头采集软件,只是一直没有购买商业版本,想想,现在的版本远没有以前的1.x和2.x版本来得爽快。

一位兄弟,昨晚说他的火车头采集软件(企业版本的哦,有钱人!),总是提示任务地址库重复,研究了下,比较简单,告诉了他处理的方法,另外,经过搜索发现,火车头的3.0 sp1版本有过这个bug,清除不掉任务地址库,但管理员已经在sp2版本中解决掉这个问题了。

后来这位朋友又问火车头采集软件的任务地址库是哪个文件?怎么样保存任务地址库?怎么样手动清理任务地址库文件?据Linker所知,编辑任务地址库,需要是商业版本了,如果想手动来处理,可以发现,手动地址库文件是在火车头根目录下的pageurl目录中,每一个任务对应一个地址库文件,mdb格式的,打开可以发现,具体地址是被加密了。火车头也有些太商业了,嘿嘿!

既然知道任务地址库的位置和文件了,手动清理任务地址库,自然就简单了。删除让火车头重复(删除后,编辑该任务,再保存),或者直接删除该库里面的记录,都可以。想另存为其他任务所用,重命令为其它任务的id就行了。

简单测试通过。

火车采集器3.0版正式发布

0

分类 : 业界动态 | 发表时间 08-11-2006

经历了1.X和2.0版本后,火车采集器在原有的基础上进行了较大更新,为区别于以前的版本,不致引起混淆,我们将新发布的版本定为3.0,正式上线供大家测试。

经过近一个月的对2.0版本的更新和改进,火车采集器3.0继承了2.0优秀架构,并在其基础上不断改进,消除bug,增加站点规则,任务调度管理等新特 性,完善了写入本地TXT,CSV,HTML的发布方式,该版本将作为火车采集器的一个基础和里程碑,在优秀架构和稳定的基础上,再对小功能进行不断拓展 和改进。

由于和大家约定了发布时间为今天,时间较紧,准备得还是比较仓促,测试版中入库和文件下载尚未完善,计划在短期内再完成该部分与系统的整合。

火车采集器3.0版下载  
火车采集器安装必读  
火车采集器3.0版本基本功能介绍
[图文]火车采集器3.0采集在线示例

分流下载
   http://ymwl.501megs.com/LocoySpider3.0.rar
   http://www.hglm.com/000000/LocoySpider3.0.rar
   http://jmm.18wa.com/LocoySpider3.0.rar

谷歌Google在中国为什么会水土不服?

0

分类 : 业界动态 | 发表时间 19-09-2006

昨天,中国互联网中心(CNNIC)和著名网络分析师吕伯望同时发布了关于中国互联网搜索引擎的市场报告,上演了一出互联网版本的福布斯胡润富豪榜之争。

尽管数据不完全相同,但两份报告得出的结论却惊人地一致——谷歌在一年之中迅速流失用户,百度正收割这些流失的核心客户。而吕版的报告更是显示谷歌大跌13个百分点。

CNNIC报告数据显示,百度和谷歌在中国搜索市场占有率分别为62.1%25.3%2005年两个公司的数据分别是52%33%。而吕伯望版报告显示,百度和谷歌的市场占有率分别为64.5%20.6%,今年谷歌已丧失了20%的核心用户,其中80%流向了百度。

种种数据表明,谷歌在中国水土不服,与其在全球的地位很不相称,究其原因,主要在以下几个方面:

第一:搜索的满意度。谷歌对中文的理解程度显然不如中国本土的搜索引擎。在谷歌中进行中文搜索时,结果往往把用户的检索词串拆得太碎,以至于搜索结果往往不尽人意。随着谷歌的神圣光环逐渐褪去,人们更容易发现,谷歌的中文搜索的用户体验,确实与百度之间还有一个很大的落差。 913日下午,谷歌公司就这两份搜索引擎报告对外发表官方态度时也认识到了这个问题。谷歌认为中文搜索技术正处在巨大的变革时期,另一方面在对搜索的满意度上,中文用户与英文用户相比还有较大的差距,无论是技术水平还是用户体验,谷歌都认为自己需要走的路还很长。

第二:服务器稳定性。Google.com里面进行搜索的时候,经常会遇到突然出现“该页无法显示的提示,并且之后的十多分钟都无法正常连接谷歌。

第三:渠道问题。谷歌在渠道方面,主要是通过兼并收购等来扩大渠道,但其运作方式似乎还不能适应中国广告营销。到目前,谷歌在国内的代理商只有数家。而其在广告营销方面的负面报道却并不少见,它对谷歌的光环的影响力已非常明显。虽然渠道建设跟谷歌的理念是冲突的。谷歌特别不喜欢别人败坏它的声誉,它不但把“不为恶当作自己的信仰,还事必躬亲,取消一切中间环节,直接面对客户和用户。但渠道又确实是一种国情,就连所向披靡的戴尔,在中国也一直无法动摇土生土长的联想。

第四:不合适的反作弊手法。谷歌一年来大大加强了反作弊的力度,但由于不甚了解中国国情,谷歌一下封闭了上千家网站,其强硬的操作手法,引起中国网站站长们的强力反抗。这点上百度也有类似的阵痛。

第五:触及个人隐私。每天有2亿用户使用谷歌搜索服务,其中大部分在美国本土以外,谷歌的隐私资料收集行为将成为个人数据的定时炸弹。连华盛顿新成立的安全局资料采集部门都梦想获得谷歌搜集资料的高效能力。事实上,谷歌也正在试图诱惑每一个人在互联网上完整记录自己的人生,包括交际、商业、生活、情感和思想。谷歌搜人记录人的生活,把物理社会的个体、组织和交往行为映射到互联网上,通过数字化和虚拟化后据为己有,并最终改造成谷歌的资产。由于大量的个人信息集中在一起,谷歌正在成为互联网上最大的个人隐私隐患。

第六:中文名称“谷歌”的问题。一些网友甚至自发成立了反对“谷歌”的网站。他们签署人极力主张明确发言并投票反对Google使用中文名称“谷歌,一致认为谷歌一词极大的影响了Google在中国的使用者和支持者们心中的形象,并最终可能会影响到Google在中国的影响力。据悉,这个网站现在已有十几万的签名了。
 

网页数据采集技术对于网站推广的意义

0

分类 : 技术文摘 | 发表时间 23-08-2006

网页数据采集技术是一种使用类似搜索引擎ROBOT的技术,把互联网上的文章,资料收集整理然后存储到数据库中以填充网站内容.

很多人都不能理解数据采集技术和网站推广能有什么联系,但事实上,数据采集技术对丰富网站内容,提高网站的流量有很大帮助.

全球最大网络调查公司CyberAtlas 最近的一项调查表明:网站75%的访问量都来自于搜索引擎的推荐。另一家美国权威顾问公司IMT Strategies最新调查结果表明:发现新网站的有效途径, 搜索引擎占85%;自由冲浪占6%; 口碑宣传占4%;BANNER广告2%;偶然发现、报纸、电视各占1%。搜索引擎作为网站推广的首选媒介,有着不可忽视作用.

研究过大型网站流量分析日志的朋友可能就更容易明白一些,来自搜索引擎的流量对于大型网站来说,绝对不可能是很集中的有限几个关键词,而是非常分散的数目庞大关键词列表.如果带有来源分析的计数器,更能清晰地反应出,绝大部分访客并非由网站首页,逐渐按层次进入网站内页的,而是由搜索引擎直达内部网页,然后再相继访问与他们兴趣相关的其它网页.只有当他们感兴趣了,才会下次由网站首页,按层次进入内页浏览.

所以,想切实提高来自搜索引擎的网站流量,只有先丰富网站的内容.当网站内容很丰富,并且被搜索引擎慢慢收录之后,才有可能切实提高网站流量.而需要丰富网站的内容,人工从网上筛选也未尝不可,而数据采集技术的好处,则是很迅速地采集大量地有用信息,丰富网站内容,与人工作业相比,大大提高效益,节省成本.

摘录自:新思路站长网志

好厉害的采集系统—-火车头

4

分类 : 网络日志 | 发表时间 09-08-2006

前一段时间接触采集系统的时候,用了火车头采集系统的2.0,接触了以后,简单的看了一下教程,觉得功能非常强,由于之前曾经猜想过应该有这样的系统,所以看到之后,很是惊奇,下载下来以后,在本地搭建了一下phpwind的环境,试了试,觉得很不错,测试采集落伍时(这个火车头在广告采写上也是以采集落伍者论坛,鱼也真是够大方),很不错;事实上用了之后,2.0的功能已经非常强了,特别是采集phpwind和discuz论坛时,功能更是强劲无比;discuz是测试的采集赢政,采集到phpwind论坛上以后,效果很不错,这倒使我想起来,如果没有版本转换程序,用这个采集也不错,把本地环境搭建好,从这个版本的论坛采集到另一个版本去,虽然不是很完美,不能很方便的转换回复,但对于没有办法的低手来说,这已经是不错了。

后来,猜想了一下,看是否能采集博客,现在博客这么热,专题博客也这么火,如果能够采集博客,岂不是更牛了?试了一下,2.0的采集时,在建立规则时,有乱码,这个乱码产生的原因当然是utf-8引起的,这个版本选择源码来源时,是在总规则页面选择源码类型,但在建立规则时,不起作用,开始我以为没有选择源码类型的地方,但找到以后,建立规则又不起作用,很是气馁!

接着又试了试其他的采集系统,小蜜蜂之类的,不知道怎么回事,采集时总是出现不能找到页面,网络访问不可用;难道是采集系统建立在本地的原因?这也没有进一步测试,所以采集博客的事情也就放了下来。

昨天突然想起来,火车头采集系统还有1.2的版本,看论坛上众人反响1.2的很不错,很多人对这个版本还难舍难离的,今天上午就下了下来,试了一下,很不错,在建立规则的页面可以选择源码类型为utf-8,然后查询了一个定义网址,很正常;呵,这样看来采集博客就有望了!

随便找了一个健康专题的博客采集了一下,很不错;在本地建立的phpwind上面,建立8个线程,很快把这个专题博客采集完毕,总共二千多篇。看来,采集系统很厉害啊!

不过,从另一方面看来,不见得高版本的程序就是好用的,就是高级的,合适的才是最好的。不过,2.0的火车头版本升级也不是没道理的,增加了许多最新版本论坛程序、cms系统的支持,并且发布时速度也快了许多。

采集,取之有道,用之有道!

采集技术的道德问题?

0

分类 : 网络日志 | 发表时间 01-08-2006

今天也一直在研究采集技术的问题,也已经搞定昨天无法在赢政论坛登陆的问题,发现也不是cookie的问题,很正常;随便采集了几个贴子,基本正常;其中,也在落伍者看到了讨论采集是否合乎道德的问题,其实这也没什么的,采集者优化集中,也是对网络的一种贡献,还是那种说法,不要全部采集,把流量都抢跑了,这就有些不“道德”了;

采集资源做垃圾站,有人疯狂的喊着口号,咳,很是不屑的!垃圾,广告,这一切的一切,都在浪费浏览者的精力和网络的流量!实在不可取!

今天郑州有雷阵雨,昨天已经被淋得感冒了,说话噏声噏气的,今天不能再被淋了!先说这么多,有空多到论坛看看。

数据采集与反采集原理分析

2

分类 : 网络日志 | 发表时间 31-07-2006

这样的主题,网上很多;今天在落伍转的时候,看到了一篇帖子,说的是通过采集他人数据做垃圾站的事迹;其中提到,先前他采集别人,后来他被别人采集,再后来自已想办法通过反采集技术来避免采集;看了这些,不禁有些感叹,盗版与反盗版,采集与反采集,抄袭与反抄袭,都是为了利益这个目的!更有甚者,看到一位变态级的,在托管机上放了二千多个垃圾站,通过采集,就为了赚很少的钱!呵,也不知道是高手还是垃圾!其实,我不反对采集,网络资源,就是共享的嘛;但不分青红,全部收纳,这种做法,就显得很低级了!

先说一下采集原理:

采集程序的主要步骤如下:

一、获取被采集的页面的内容
二、从获取代码中提取所有用的数据
这种办法,比较流行的采集器就是火车头的2.1版本,今天我也测试了一下这个版本,用着还是不错;它的例程上面讲的是采集落伍的贴子,我发现落伍对此还是非常大方的,虽然discuz程序针对采集也采取了反采集的策略,但落伍对此并没有限制,大家可以很方便的采集,这我不得不佩服鱼的经营策略!当然,就算有人把落伍再复制一份,也不可能产生第二个落伍的。

我参照火车采集器的例程,也试了一下采集落伍的几个贴子,做试验用;发现也没费多少周折,就成功了;看来,这采集器的功能确实非常厉害,这样来做垃圾站的话,确实很快就可以把内容填充得丰富多彩的!但在试用的过程中也发现,霏凡的和赢政的,有些问题,主要问题还是在有些步骤,限制了cookie验证,造成不能使真正的页面显出来,以致于无法读出全部正文,如果没有正文,当然就没有办法来筛选内容了;霏凡用的是phpwind,赢政用的是discuz,我想,不管是网站方面还是程序方面,应该是做了限制的。有空再多琢磨一下,这两个网站的休闲版块,内容还是很不错的,呵!

介绍完采集器的祥细原理后,就开始说一下防采集的策略。

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:

一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问
弊端:
1、此方法只适用于动态页面,如:asp\jsp\php等…静态页面无法判断某个IP一定时间访问本站页面的次数
2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件
采集对策:只能放慢采集速度,或者不采
建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。
评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。

二、用javascript加密内容页面

弊端:此方法适用于静态页面,但会严重影响搜索引擎对其收录情况,搜索引擎收到到的内容,也都是加密后的内容
采集对策:建议不采,如非要采,就把解密码的JS脚本也采下来。
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。

三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“

弊端:此方法弊端不大,仅仅会增加一点点的页面文件大小,但容易反采集
采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。
建议:目前没有好的改良建议
评论:自己感觉实用价值不大,就算是加上随机的隐藏文字,也等于画蛇添足。

四、只允许用户登陆后才可以浏览
弊端:此方法会严重影响搜索引擎蜘蛛对其收录
采集对策:目前落伍已经有人发了对策文章 ,具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。

五、用javascript、vbscript脚本做分页
弊端:影响搜索引擎对其收录
采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。
建议:目前没有好的改良建议
评论:感觉懂点脚本语言的人都能找出其分页规则

六、只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER”)
弊端:影响搜索引擎对其收录
采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。

从以上可以看出,目前常用的防采集方法,要么会对搜索引擎收录有较大影响,要么防采集效果不好,起不到防采集的效果。那么,还有没有一种有效防采集,而又不影响搜索引擎收录的方法呢?那就请继续往下看吧,精彩的地方马上呈献给大家。

下面就是我的防采集策略,防采集而又不防搜索引擎

从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文件名规则、分析页面代码规则。

一、分页文件名规则防采集对策

大部分采集器都是靠分析分页文件名规则,进行批量、多页采集的。如果别人找不出你的分页文件的文件名规则,那么别人就无法对你的网站进行批量多页采集。
实现方法:
我认为用MD5加密分页文件名是一个比较好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人根据此规则也可以模拟你的加密规则得到你的分页文件名。

我要指出的是我们加密分页文件名时,不要只加密文件名变化的部分
如果I代表分页的页码,那么我们不要这样加密
page_name=Md5(I,16)&”.htm”

最好给要加密的页码上再跟进一个或多个字符,如:page_name=Md5(I&”任意一个或几个字母”,16)&”.htm”

因为MD5是无法反解密的,别人看到的会页字母是MD5加密后的结果,所以加人也无法知道你在 I 后面跟进的字母是什么,除非他用暴力****MD5,不过不太现实。

二、页面代码规则防采集对策

如果说我们的内容页面无代码规则,那么别人就无法从你的代码中提取他们所需要的一条条内容。
所以我们要的这一步做到防采集,就要使代码无规则。
实现方法:
使对方需要提取的标记随机化
1、定制多个网页模板,每个网页模板里的重要HTML标记不同,呈现页面内容时,随机选取网页模板,有的页面用CSS+DIV布局,有的页面用table布局,此方法是麻烦了点,一个内容页面,要多做几个模板页面,不过防采集本身就是一件很烦琐的事情,多做一个模板,能起到防采集的作用,对很多人来说,都是值得的。
2、如果嫌上面的方法太麻烦,把网页里的重要HTML标记随机化,也可以。

做的网页模板越多,html代码越是随机化,对方分析起内容代码时

浅谈网络攻击检测技术

0

分类 : 系统安全 | 发表时间 13-06-2006

信息来源:BackLi’blog

保证信息系统安全的经典手段是“存取控制”或“访问控制”,但无论在理论上还是在实践中,这种手段都不能彻底填补一个系统的安全漏洞,也还没有一种切实可行的办法解决合法用户在通过“身份鉴别”或“身份认证”后滥用特权的问题。攻击检测技术就像治安巡逻队,专门注重于发现形迹可疑者。

  计算机网络技术的发展和应用对人类生活方式的影响越来越大。通过Internet网连接到几乎世界上任何一台计算机。因此,传统的安全域的概念也已经发生了深刻的变化,边界变得模糊了,网络系统管理员再也不能满足于守住安全边界了;也不再有信心保护敏感信息万无一失。越来越多的证据表明计算机信息系统的安全性是十分脆弱的。基于计算机、网络的信息系统的安全问题已经成为非常严重的问题。

  一、存取控制与攻击检测:站岗与巡逻

  保证信息系统安全的经典手段是“存取控制”或“访问控制”,这种手段在经典的以及现代的安全理论中都是实行系统安全策略的最重要的手段。但迄今为止,软件工程技术还没有达到A2级所要求的形式生成或证明一个系统的安全体系的程度,所以不可能百分之百地保证任何一个系统(尤其是底层系统)中不存在安全漏洞。而且,无论在理论上还是在实践中,试图彻底填补一个系统的安全漏洞都是不可能的,也还没有一种切实可行的办法解决合法用户在通过“身份鉴别”或“身份认证”后滥用特权的问题。打个比方,经典的安全体系就像一座城池,身份认证就好像进城时的查路条一样,着重点在于防范奸细混入;但是这种措施对于城池的安全仍是远远不够的。

  攻击检测作为其他经典手段的补充和加强,是任何一个安全系统中不可或缺的最后一道防线;攻击检测可以分为被动、非在线地发现和实时、在线地发现计算机网络系统中的攻击者两种方法。从大量非法入侵或计算机盗窃案例可以清晰地看到,计算机系统的最基本防线“存取控制”或“访问控制”,在许多场合不是防止外界非法入侵和防止内部用户攻击的绝对无懈可击的屏障。大量攻击成功的案例是由于系统内部人员不恰当地或恶意地滥用特权而导致的。攻击检测技术则类似于治安巡逻队,专门注重于发现形迹可疑者,信息系统的攻击者很有可能通过了城门的身份检查,或者爬越了城墙而混入城中;这时要想进一步加强信息系统的安全强度,就需要增派一支巡逻队,专门负责检查在城市中鬼鬼祟祟行动可疑的人员。

  攻击检测提供了一种机制,对合法用户而言能够在一定程度上使他们为其失误或非法行为负责,从而增强他们的责任感。对非法进入的攻击者而言则意味着增强了纠察力度,行使着公安局、检察院的职责。攻击检测具有最后防线性质的防范能力,或许是用来发现合法用户滥用特权的唯一方法,而且完善的攻击检测还能用具有法律效力的方式证明一个受到怀疑的人是否有罪。

  早期中大型的计算机系统中都收集审计信息来建立跟踪文件,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少。
二、攻击检测技术

  1.攻击分类

  在信息系统中,一般至少应当考虑如下三类安全威胁:外部攻击、内部攻击和行为滥用。攻击者来自该计算机系统的外部时称作外部攻击;当攻击者就是那些有权使用计算机,但无权访问某些特定的数据、程序或资源的人企图越权使用系统资源时视为内部攻击,包括假冒者(即那些使用其他合法用户的身份和口令的人)、秘密使用者(即那些有意逃避审计机制和存取控制的人员);特权滥用者也是计算机系统资源的合法用户,表现为有意或无意地滥用他们的特权。

  通过审计试图登录的失败记录可以发现外部攻击者的攻击企图;通过观察试图连接特定文件、程序和其他资源的失败记录可以发现内部攻击者的攻击企图,如可通过比较为每个用户单独建立的行为模型和特定的行为来检测发现假冒者;但要通过审计信息来发现那些权利滥用者往
往是很困难的。

  基于审计信息的攻击检测特别难于防范具备较高优先特权的内部人员的攻击,因为攻击者可通过使用某些系统特权或调用比审计本身更低级的操作来逃避审计。对于那些具备系统特权的用户,需要审查所有关闭或暂停审计功能的操作,通过审查被审计的特殊用户、或者其他的审计参数来发现。审查更低级的功能,如审查系统服务或核心系统调用通常比较困难,通用的方法很难奏效,需要专用的工具和操作才能实现。总之,为了防范隐秘的内部攻击需要在技术手段以外确保管理手段行之有效,技术上则需要监视系统范围内的某些特定的指标(如CPU、内存和磁盘的活动),并与通常情况下它们的历史记录进行比较,以期发现之。

  2.攻击检测技术分类

  基于计算机系统审计跟踪信息设计和实现的系统安全自动分析或检测工具是最为自然朴素的攻击检测技术。可以从审计系统筛选出涉及安全的信息。其思路与流行的数据挖掘(Data Mining)技术极其类似。

  基于审计的自动分析检测工具可以是脱机的,也可以是联机或在线的。分析工具实时地对审计跟踪文件提供的信息进行同步处理,当有可疑的入侵行为时,系统提供实时的警报,在攻击发生时就能提供攻击者的有关信息。

  对于信息系统安全强度而言,联机或在线的攻击检测是比较理想的,能够在案发现场及时发现攻击行为,有利于及时采取对抗措施,使损失降低到最低限度。同时也为抓获攻击犯罪分子提供有力的证据。但是,联机的或在线的攻击检测系统所需要的系统资源,几乎随着系统内部活动数量的增长呈几何级数增长。

  3.攻击检测方法

  (1)基于审计的攻击检测

  基于审计信息的攻击检测工具以及自动分析工具可以向系统安全管理员报告计算机系统活动的评估报告,通常是脱机的、滞后的。

  对攻击的实时检测系统的工作原理是基于对用户历史行为的建模,以及在早期的证据或模型的基础之上。审计系统实时地检测用户对系统的使用情况,根据系统内部保持的用户行为的概率统计模型进行监测,当发现有可疑的用户行为发生时,保持跟踪并监测该用户的行为。

  系统应具备处理自适应的用户参数的能力。能够判断使用行为的合法或可疑。系统应当能够避免“肃反扩大/缩小化”的问题。这种办法同样适用于检测程序的行为以及对数据资源(如文件或数据库)的存取行为。
(2)基于神经网络的攻击检测技术

  如上所述,基于审计统计数据的攻击检测系统,具有一些天生的弱点,因为用户的行为可以是非常复杂的,所以想要准确匹配一个用户的历史行为和当前的行为是相当困难的。错发的警报往往来自于对审计数据的统计算法所基于的不准确或不贴切的假设。SRI的研究小组利用和发展神经网络技术来进行攻击检测。神经网络可能用于解决传统的统计分析技术所面临的以下几个
问题:

  ●难于建立确切的统计分布
  ●难于实现方法的普适性
  ●算法实现比较昂贵
  ●系统臃肿难于剪裁

  目前,神经网络技术提出了对基于传统统计技术的攻击检测方法的改进方向,但尚不十分成熟,所以传统的统计方法仍将继续发挥作用,也仍然能为发现用户的异常行为提供相当有参考价值的信息。

  (3)基于专家系统的攻击检测技术

  进行安全检测工作自动化的另外一个值得重视的研究方向就是基于专家系统的攻击检测技术,即根据安全专家对可疑行为的分析经验来形成一套推理规则,然后再在此基础之上构成相应的专家系统。由此专家系统自动进行对所涉及的攻击操作的分析工作。

  所谓专家系统是基于一套由专家经验事先定义的规则的推理系统。例如,在数分钟之内某个用户连续进行登录,且失败超过三次就可以被认为是一种攻击行为。类似的规则在统计系统似乎也有,同时应当说明的是基于规则的专家系统或推理系统也有其局限性,因为作为这类系统的基础的推理规则一般都是根据已知的安全漏洞进行安排和策划的,而对系统的最危险的威胁则主要是来自未知的安全漏洞。实现一个基于规则的专家系统是一个知识工程问题,而且其功能应当能够随着经验的积累而利用其自学习能力进行规则的扩充和修正。

  (4)基于模型推理的攻击检测技术

  攻击者在入侵一个系统时往往采用一定的行为程序,如猜测口令的程序,这种行为程序构成了某种具有一定行为特征的模型,根据这种模型所代表的攻击意图的行为特征,可以实时地检测出恶意的攻击企图,尽管攻击者并不一定都是恶意的。用基于模型的推理方法人们能够为某些行为建立特定的模型,从而能够监视具有特定行为特征的某些活动。根据假设的攻击脚本,这种系统就能检测出非法的用户行为。一般为了准确判断,要为不同的入侵者和不同的系统建立特定的攻击脚本。

  当有证据表明某种特定的攻击模型发生时,系统应当收集其他证据来证实或者否定攻击的真实,以尽可能的避免错报。

  为了防止过多的不相干信息的干扰,用于安全目的的攻击检测系统在审计系统之外一般还配备适合系统安全策略的信息采集器或过滤器。同时,还应当充分利用来自其它信息源的信息。在某些系统内可以在不同的层次进行审计跟踪。如有些系统的安全机制中采用三级审计跟踪,包括审计操作系统核心调用行为的跟踪、审计用户和操作系统界面级行为的跟踪、和审计应用程序内部行为的跟踪。

  总之,和经典安全措施相同,任何一种攻击检测措施都不能视之为一劳永逸的,必须配合有效的管理和组织措施,形成立体的和纵深有序的安全防御体系。

光纤通道的终结者——iSCSI技术

0

分类 : 业界动态 | 发表时间 20-04-2006

随着通信技术的不断发展和成熟,又一种新型的通信技术——网络存储已经在市场登陆。专家们说,三至五年后,基于已提议的iSCSI规范的IP网络存储将把光纤通道逐出市场,光纤通道存在的成本高昂和可互操作性问题,正是iSCSI所能克服的。那么iSCSI技术到底是怎样的一种技术,它与其他通信技术相比又有什么“特出之处”呢?
 
  1、iSCSI技术的概念
 
  iSCSI技术是一种新储存技术,该技术是将现有SCSI接口与以太网络(Ethernet)技术结合,使服务器可与使用IP网络的储存装置互相交换资料。此技术不但价格较目前使用的业界技术标准Fibre Channel 来的低廉,而且系统管理人员也可以用相同的设备来管理所有的网络,并不需要以另外的设备来进行网络的管理。
 
  iSCSI技术是由IBM下属的两大研发机构————加利福尼亚Almaden和以色列Haifa研究中心共同开发的,是一个供硬件设备使用的可以在IP协议的上层运行的SCSI指令集。简单的说,iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行路由选择。
 
  现在,许多网络存储提供商致力于将SAN(StorageAreaNetworking存储区域网络)中使用的光纤通道设定为一种实用标准,但是其架构需要高昂的建设成本,这不是一般的企业所能够承受的。与之相对,NAS(NetworkAttachedStorage网络接入存储)技术虽然成本低廉,但是却受到带宽消耗的限制,无法完成大容量存储的应用,而且系统难以满足开放性的要求。iSCSI技术的使用在以上两者之间架设了一道桥梁。虽然iSCSI基于IP协议,却拥有SAN大容量集中开放式存储的品质。这一技术对于一边要面对信息爆炸,另一边却身处“数据孤岛”的众多中小企业无疑具有巨大的吸引力。
 
  iSCSI技术是基于IP协议的技术标准,实现了SCSI和TCP/IP协议的连接,对于以局域网为网络环境的用户,只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输和管理。
 
  2、iSCSI技术的特点
 
  在信息时代,信息的采集与处理已经成为决定企业生存与发展的关键因素,面对“海量”的数据使得许多企业感到力不从心,只能望洋兴叹。iSCSI技术可以实现在IP网络上应用SCSI的功能,因而充分利用了现有IP网络成熟性和普及性的优势,为众多中小企业对经济合理和便于管理的存储设备提供了直接访问的能力。相对于以往的网络接入存储,iSCSI的产生解决了开放性、容量、传输速度、兼容性、安全性等问题,其优越的性能使其自发布之始便受到市场的关注与青睐。
 
  尽管光纤通道作为短距离数据传输的技术性能不俗,但iSCSI技术从实用的角度来看,iSCSI技术更能以IP网络取代光纤通道。毕竟,iSCSI对应用程序没有修改的要求,而且IP网络可以使得数据存贮就像在本地磁盘上进行一样,哪怕一台PC或服务器的物理位置实际上在地球的另一端。
 
  3、iSCSI技术的现状
 
  iSCSI在技术上处于领先地位,它的推出使NAS的性能得到了大幅度的提高。IBM在iSCSI技术的使用方面在全行业处于领先地位,可以为无法承担光纤通道SAN环境基础结构高成本的中间市场客户提供利用SAN所带来的好处。IBMiSCSI产品以中间市场为定位,一方面可以作为企业级光纤通道SAN的补充,可以实现不间断增长集中存储管理,并且可以和现有的IP网络技术进行良好的整合;另一方面,随着网络存储技术的发展,其将会同NAS系统进行全面的整合,进而成为一个独立的,与SAN系统并驾齐驱的发展领域。
 
  现在网络存储已经开始成为IT行业的热点,无论是SAN,还是NAS都还有巨大的潜力可以进行挖掘。日前,IBM已经将iSCSI提交IETE存储标准机构。随着新技术标准的制定,IBM的iSCSI将会成为存储领域内的核心技术之一,其低廉、便捷、开放、安全、标准的诸多优异的品质在“未来”必将得到充分的完善与发展,从而成为一个充满生机与活力的发展方向,为广大的用户提供最为完善的网络存储服务。


  4、iSCSI技术的前景
 
  当然,iSCSI技术作为一种心性的技术,还存在着与其他技术相互访问的问题,为此iSCSI的主要支持机构将厂商们召集在一起,在企业环境中对iSCSI产品进行测试。专家们说,尽管大多数新产品都与iSCSI规范的0.6版相兼容,但几乎没有一种产品支持1.0版,而率先支持1.0版的厂商将在iSCSI产品方面领先一步。
 
  光纤通道技术的领导者EMC公司也正以严肃的眼光审视IP存储和即将到来的iSCSI。EMC的官员们说iSCSI将最终成为管理员们的首选,他们还说“我们可以期待在三至五年后iSCSI将取代光纤通道,但光纤通道不会消失。”
 
  企业管理员们认识到更低的硬件成本与IP解决方案培训成本将是决定光纤通道命运的一个主要因素,性能也是如此。但是还有一种选择方案甚至更有吸引力:即使用NAS(网络附属存储器)系统的千兆位以太网。“每当考虑光纤通道卡、集线器和交换机时,成本始终是一个很重要的问题。”IBM公司的一位技术官员说,“在某些方面,我们考虑使用NAS直接与千兆位以太网相连接,因为这样做的成本相当低。”他还说光纤通道业界在2Gbps速率方面的工作进展缓慢,从而更增加了人们对其与iSCSI或NAS相竞争的能力的怀疑。

如何有效的利用新闻采集带来流量

0

分类 : 社会文摘 | 发表时间 26-03-2006

搜索引擎带来流量的多少和两个因素有关:
1、你的网站被收录页面的多少

2、收录的页面在搜索结果里面的排名

第二个问题属于SEO的话题,我们就不讨论了

网站被搜索引擎收录多少是每个新站长每天都关心的,由于每天更新有限,所以收录的页面数量总也上不去,怎么办才好呢?

我想到了一个办法,于是制作了一个新闻自动采集系统,申请了一个域名,一个新闻频道就诞生了。

登录搜索引擎,一个星期左右开始收录,虽然每天收录的新闻页面只有300-800多,和我实际的采集页面相差很多(每天的采集大概有6000-1万),但是也很满意了。

然后在新闻页面里面加上我的主站的广告(新闻频道给主站带来流量),一切OK。

这个策略实行一周后,主站的流量成倍增加。

原来不知道,在搜索引擎里面搜索新闻的人真多。

欢迎各位感兴趣的站长参与讨论,通过技术的革新带来流量。

无觅相关文章插件,快速提升流量