火车采集器

首页/产品/更新历史
更新日期: 2013-09-17火车采集器 V8版

V8版本增加的功能

1.增加发布扩展功能,开发了很多CMS的发布扩展
2.增加获取更新远程采集规则功能,用户可以自建规则服务器,向自己客户提供采集规则
3.增加更多应用扩展,如E商统计,极速搜索,论坛采集器,微博数据助手等
4.二级代理增加页面缓存功能,方便短时间内对同一网页进行采集。
5.起始网址添加自定义语法,可以生成更多复杂网址
6.将google,bing,有道翻译集成到汉译英翻译模块中
7.本地库转换时增加了保留数据选项
8.POST采集网址部分增加了文本导入搜索词功能
9.增加网盘上传功能,一个文本可以同时上传多个网盘
10.增加将EXCEL数据导入采集器功能
11.POST获取网址部分增加了一个修改header功能
12.支持下载ftp中的文件
13.标签处理中加了一个运行C#代码功能
14.任务搜索功能中增加分组搜索
15.修改测试发布,增加入库以及应用扩展测试发布
16.入库和web发布添加了个复制配置右键菜单
17.系统托盘增加显示当前程序运行目录功能
18.本地替换增加可选操作整个数据库的选项
19.火车采集器任务右键菜单增加shift键功能

V8版本修改的Bug

1.解决explorer关闭重开后采集器图标找不到的问题
2.解决url地址中带.号获取内容失败的bug
3.修正多页抓取的时候UserAgent不统一造成cookie失效的情况
4.修正多页抓取的时候网站编码选择自动识别并且多页的网址编码不一致造成多页返回乱码的问题
5.处理了部分mysql数据库不能获取列表的问题
6.修复部分代理在二级代理中无效一级代理中有效的问题
7.修正图片下载地址不包含< 必须包含条件 失效的bug
4.解决打开程序报错,软件界面上图片显示红叉的问题
更新日期: 2012-02-20火车采集器 V7版

前后历时近一年的新版框架平台(火车头数据采集平台)的重新搭建及火车采集器V7.0的功能更新升级。

V7.0功能新增项:
1、无限级多页采集
2、任务队列运行管理功能
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口查看运行情况
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Http接口管理采集器运行
25、Mongodb数据库保存数据
26、主从服务器分布式采集

更新日期: 2011-05-20火车采集器 V2010SP3版

1.优化C#插件,插件执行效率更高.
2.添加了更多的错误处理,防止程序意外退出.
3.修正一个入库时的bug
4.修复文件下载时出现StartIndex不能小于0的bug
5.修复部分情况下因表前缀为大写导致入库失败的bug.
6.修复使用随机文件名时反义无效的问题
7.对生成csv添加了选项,可生成utf8和gbk两种csv
8.对入库时如出错,将会重试一次,减少了入库失误率.
9.修改了入加模块中有子查询时表数量获取不正确的问题.
10.修改了获取网址时插件值未传入的一个bug.
11.修改了任务中网址测试时2级网址有误的问题.
12.更新了一个获取文本网址时没去掉 ,可能导致插件处理发生错误的问题.
13.修改了一个实际采集时采集采集页地址为测试页的小bug.
14.cookieGet和cookiePost可能为null值的一个bug.
15.修改了一个如果使用蜘蛛后发送useragent不正确的问题.
16.增加sql语句错误时打印出sql语句的功能方便用户调试入库规则.
17.更新了分词组件。
18.对于500错误但仍输出正确代码的网站进行了处理。
19.增加了保存文件的默认目录名。
20.更新自动升级程序

更新日期: 2010-11-29火车采集器 V2010SP2版

1.修复了一种情况下OutOfMemoryException的bug.
2.有时程序界面卡的问题,稳定性更强。
3. —符号在采集器中变成-的问题(.net的一个bug).
4.修复了当下载文件名中含有特殊字符导致程序退出的bug.
5.增加了将asp,php等动态图片探测并下载的功能.
6.修改全局里中文url编码不起作用的bug.
7.解决"请检查是否数据库呈打开锁定状态"的bug.
8.解决了部分情况下出现 "Attempted to read or write protected memory" 的bug.
9.解决系统设置里里分隔符会无效的问题.
10.添加了标签间调用功能.
11.文件保存地址支持标签调用.
12.解决在用户自定义系统时间后,任务无法保存的bug.
13.其它一些细节方面的修改。

更新日期: 2010-06-10火车采集器 V2010SP1版

2010-04-25自动升级更新已解决以下问题——————
1.修复了采集内容或网址时出错导致程序退出的问题.
2.下载文件并下载时文件地址错误导致程序退出的问题.
3.使用插件时测试发布使用的数据不是插件处理后的数据的bug.
4.修正了一个智能提取时SY标签提取错误的问题.
5.列表页标签部分情况下提示重复的bug.
6.在分词或摘要时不存在某个标签时可能出错的bug.
7.在采集时提供了更多的细节显示.更方便用户查看进度.
8.探测文件并下载给加了不区分大小写功能.
9.修复倒序发布时部分次序不对的问题.

2010-05-06自动升级更新已解决以下问题——————
10.MSsql会出现 所唯一索引之类的问题.
11.内置浏览器访问某些网站出错的问题.
12.网址库过大时提示内存不足的问题.
13.全局设置[换行]不起作用的问题.
14.添加全局替换后部分情况下替换不起作用的问题.
15.使用自动更新时,如果设置错误的时间导致程序无法运行的问题.
16.以SqlServer做数据库时网址重复检测失败的bug.
17.导入导出时增加了文件夹的设置.
18.更新了加密程序,支持更高版本.net.
19.修复了以MySql做数据库时数据库错误会导致程序退出的bug.
20.修复了入数据库时,大小写错误引起入库失败的bug.

2010-05-11自动升级更新已解决以下问题——————
21.mysql中同时添加多个字段提示错误的bug.
22.修改了一个使用自定义网址过滤时不得包含不起作用的bug.
23.增强了检测文件并下载的功能.
24.自定义中时间网址生成的一个bug.
25.更新Sqlite驱动到最新版.
26.编辑任务修改和最后采集时间没有显示的bug.

2010-05-13自动升级更新已解决以下问题——————

27.修复了删除有索引的标签时错误的bug.
28.修复了测试采网址时显示的一个错误.
29.修复了当网址链接使用basehref时如果basehref不是根目录网址获取错误的bug.
30.增加了备份用户配置文件功能.
31.修复了删除有索引的标签时错误的bug.
32.修复了测试采网址时显示的一个错误.
33.修复了当网址链接使用basehref时如果basehref不是根目录网址获取错误的bug.
34.增加了备份用户配置文件功能.
35.修复了mysql中同时添加多个字段提示错误的bug.
36.修改了一个使用自定义网址过滤时不得包含不起作用的bug.
37.增强了检测文件并下载的功能.
38.自定义中时间网址生成的一个bug.
39.更新Sqlite驱动到最新版.
40.编辑任务修改和最后采集时间没有显示的bug.
41.Sqlite数据库压缩失效的bug.
42.http请求工具User-agent菜单第一项设置为本机User-Agent.
43.修复了企业版在使用直接入库时不下载图片的bug.

2010-06-01自动升级更新已解决以下问题——————
44.修复了当使用php插件时给标签赋值为null导致采集器退出的bug.
45.在处理不符合记录时,如删除记录,也会删除该记录所下载的文件.
46.增加了随机代理功能.该功能在旗舰版及更高版本中可用.
47.增加了任务完成后数据自检功能.
48.修复了标签替换时,如果出错,将弹出很多出错误框的提示的问题.
49.新增加一选项,当使用多个发布配置时,如果没有全部发布成功,可以设置为已发或未发.
50.增加代码调试,当Web发布失败时,将返回所有的采集器提交的数据及返回的数据.
51.处理了部分FTP上传时提示 在其上下文中,该请求的地址无效 的问题.
52.修复提取内容图片为缩略图时不下载时不保存图片地址的bug.
53.FTP上传文件时没显示进度条的小bug.
54.增加任务运行时禁止修改任务名,防止修改任务名后出现采集错误.
55.将网址采集重复的累计计算方法改成原来的正确的连续重复计算方法.
56.优化采集过程,减少系统资源使用.

2010-06-09自动升级更新已解决以下问题——————

57.将同时运行任务数限制取消.
58.更新本地数据导出CSV工具到2010版.
59.修复批量工具中整个站点删除不起作用的bug.
60.关键词替换支持读取utf-8格式文件.

 

更新日期: 2010-04-14火车采集器 V2010版

新增功能:
1.丰富的插件功能:新版中PHP插件和C#插件可以在采网址时,采内容时,采完内容后使用插件,而不限是什么插件.同时对对插件开发提供了更加详细的开发手册,可以方便用户实现自己的特殊要求.
2.任务运行日志:程序将对运行的日志进行保存,方便用户在自动更新时查看采集器的工作情况.
3.更多的数据保存方式.程序可以将数据保存在access,sqlite,mssql,mysql,oracle数据库中,更快的速度,更方便的管理.
4.更方便的升级及.程序对文件目录格式进行了重新设置,用户如果不使用升级程序,只需要复制几个文件夹就可以经松完成升级.
5.支持可选的加密狗授权方式.
6.命令行模式.可以使用参数启动程序执行任务.可以通过计划任务的来实验定时采集,在采集结束后退出程序
7.中文分词增加用户词库,可以添加用户排除的词库.可以只使用用户词库.
8.本地采集数据管理里加入了图片预览功能.
9.标签可以上下进行排序.生成CSV时,就按该排序生成csv文件.测试时,返回的结果也以标签的排序进行显示.
10.图片和flash下载排除功能.对于符合条件的文件不进行下载.
11.文件上传标签里可以针对多个标签进行文件上传.
12.采网址部分在使用2级网址时可以设置列表页包含区域。
13.循环采集时可以使用提取关键字,摘要等功能。
14.列表标签可以进行编辑,如排除和过滤,下载等。

优化的项目:
1.任务列表树加载速度提高.
2.系统配置即时更新,不需要手工重新加载配置.
3.采集数据不符合要求过滤掉后不会再下载图片和其它文件.
4.PHP插件处理数据不限数据大小.
5.支持64位操作系统.
6.数据库发布模块支持八条以上的语句
7.自动分词增加了一倍的词库,加载词库只需1,2秒.
8.商业版授权方式,如硬件小的更改不会提示已更换电脑,仍可继续使用.
9.采网址采内容时可以暂停,程序将保存原来的采集状态.
10.列表页不使用自定义网址也可以配置提取内容中第一张图片为缩略图.

修复的Bug:
1.有时双击列表无反应的bug.
2.保存特殊cookie时失败的bug.
3.无法处理韩文的Bug.
4.不添加新发布配置法删除原任务中发布配置的bug.
5.部分情况下程序直接退出的bug.
6.图片地址中出现&字符无法下载图片的bug.
7.部分文本编辑框中粘贴后光标位置错误的bug.
8,其它已知BUG。

更新日期: 2009-09-01火车采集器 V2009SP4版

功能简介:
火车采集器2009SP4最后更新:2009-09-01
1、修正了部分文件下载成功后数据库标记不正确的问题(间接导致Ftp上传文件个数不正确)
2、修正了开启自动更新时偶尔出现的Hashtable被修改导致自动更新错误的问题
3、使用了SQLite数据库连接池,保证在多线程下Sqlite的稳定操作。
4、修正了在多任务同时更新时,同任务不断增加,导致界面上任务数越来越多的问题。
5、状态栏小提示同完成提示音一起,可以关闭显示。
6、去掉了内置PHP插件内默认每次加载很影响处理速度的php_mysql.dll

更新日期: 2009-08-03火车采集器 V2009SP3版

功能简介:
1.重写自动升级程序,升级更方便简单.
2.数据库发布加入oracle支持.
3.php插件支持utf-8编码,可以处理所有的字符编码.
4.优化自动更新功能,修复了程序在一些电脑上更新出错的问题.
5.添加任务批量修改工具,可以更方便的处理批量任务.
6.增加一个标记内容发布状态为已发功能.
7.增加了一个任务剪切功能.
8.对缩略图也使用随机目录保存.
9.对图片和flash的相对地址不再自动补全.
10,优化导入导出复制任务及保存任务操作,避免出现假死状况.
11.使用外部工具下载文件,如果选用原文件名且使用外部下载工具,则保存为lst.
12.修复任务复制时如果列表有标签则新粘贴任务采集失败的bug.
13.修复了在随机目录,如果用户自己选固定下载地址,没有给字符串进行转义的bug.
14.修复了程序有时无法退出的bug.
15.修复了ftp上传中因服务器兼容而导致的漏传问题.
16.修复了对不符合要求的数据标记失败的bug.
17.修复了在繁体系统下简繁互转失败的bug.
18.支持windows7操作系统. 查看截图
18.其它细节修改

更新日期: 2009-04-29火车采集器 V2009SP2版

功能简介:
1、改进了PHP接口的功能,php接口接收和返回整个标签内容数组集合,支持各个标签间相互调用及处理
2、标签内增加不得重复的设置,可以对过滤掉重复的标签内容了!(不只是简单的网址重复过滤)
3、对采集过程中出现错误的记录有错误处理机制了。以前网络出现错误时一样会标记为采集成功。
4、去掉了免费版内2%的随机广告.
5、添加了标签结果不符合要求的处理方法,全局设置内增加可选是否删除或标记为已采的选项
6、修复了附件下载时中文乱码及多次跳转无法得到正确文件名的bug
7、ubb发表添加了表格支持
8、web发布时自动加载需要的标签
9、修改了智能提取标签时提取了缩略图的bug
10、模块编辑器支持update语句.
11、优化了中文分词模块
12、优化了ftp上传模块,将不再出现文件已经实际下载却提示未找到任务可以上传文件的情况
13、修正了入库配置里端口的设置显示问题.
14、解决了因sql语句大小写问题导致入库不成功的bug.
15、修正了explorer意外结束后程序托盘图标无法显示的问题.
16、循环采集时内容合并的间隔符号,不能是半角空格的bug
17、修复了部分版本中任务列表框在三个步骤全不选后任务自动消失的bug.
18、修复了自动运行中部分情况下不能自动停止及采完网址不继续采内容的bug.
19、修复了导入带有从文件导入网址的任务规则时文本文件没有同步导出的bug.
20、修复了web上传文件时[本地文件循环:标签]中标签的设置不起作用及所有的类型均是text/plain的bug.

更新日期: 2009-03-20火车采集器 V2009SP1版

功能简介:
模块编辑器里里的使用随机用户名界面显示错误
时间转化标签在发布时转化为空不能正确转化为时间戳的bug.
停止和暂停按钮的提示信息相反的bug.
免费版本的下载路径.(已开放随机目录给免费吧版本)
过滤内容为空的规则里图片照样下载的bug.
添加web发布配置那里,空白的地方一点就出错
把数据采集到本地保存为 csv文件的时候,所有的数据全部排列成一行.
对标记为过滤的记录,改为直接删除记录.
在任务编辑状态下,隐藏主界面后丢失正在编辑的任务的bug.
添加标签时,如果先在“定义固定格式的数据”打上了标签名“关键字” 点保存。这时标签名就是“SY_关键字的bug.
模块里不能添加http://
测试时的网址https不能测试.
对手动添加的网址重复检测.
列表页缩略图及自定义标签预览,在最大化时不能靠边.
标签编辑框里在有的系统上鼠标移出后会消失的bug.
ftp支持没有遵守标准ftp协议的服务器了.
修复了部分非微软输入法中文有时不能输入的bug.
修复下载中有空格时下载不成功的bug.
程序可以多开,但用户应该注意在不同目录内开启多个程序实例.
本地编辑中,对于数据量很少的字段,可以直接在列表中编辑,回车提交信息.
在规则页面选择“使用接口”时,后面添加了一个编辑接口文件的小按钮
隐藏任务功能.有一个全局开关,当不选采网址,采内容,发内容时且该任务运行过一次后,如开,则该任务会隐藏.
在提取关键字后,最后一个链接符去掉.
在单条发布时添加一个完成提示,在本地编辑时更新为已发布.

更新日期: 2009-02-23火车采集器 V2009版

功能简介:
加入了列表页标签采集,可以在采集网址的时候采集任意多的标签(类似以前的缩略图系统标签工作模式)
支持gzip,deflate网页压缩采集,可大幅度提高网页下载速度(3到10倍).
重写下载模块,可以断点下载,断点分块多线程下载,大文件不再是问题.支持论坛附件,多次跳转等Http,FTP协议形式的文件下载
支持上传附件.可以通过发布帖子文章的时候利用文件表单接口上传附件(文件)到网站,更方便.
加入了发布时间随机时间段的功能,使发布时间更人性化
重写本地数据编辑功能,加载更快,处理更方便
加入了在本地数据编辑时对单个标签进行同义词敏感词替换处理及执行历史SQL等功能
支持.net外部编程插件,可以做更为复杂的工作.例如下载视频.
支持更多http头.对于http 1.0的也可以下载了.
加入了加入批量网址时可按a-z添加的功能
支持对多个标签进行分词.准确性更好.
可以随机发布和随机文件保存目录.
支持网址部分post随机值.那些aspx类型的网站网址获取不再难.
规则模块高亮显示功能.对于一些关键字和标签进行高亮显示.编辑更方便.
测试规则时及数据编辑时可以进行单条和多条的WEB发布到网站测试
更新了用户界面,主界面使用仿VS2005可停靠窗口模式
加入了本地数据库编辑时可以默认选择使用设置模式还是代码模式显示的功能
任务可以批量复制,导入,导出等
可以一键导入模块中所有的标签,多标签的规则不再痛苦.
加入了一键获取本机User-Agent的功能
重写了获取源代码,Http模拟提交工具,增强了其功能
新加入[系统时间转化:]标签,可对当前时间按任意格式进行转化
添加了采集数据资源locoy://协议,用户可以直接点击这样的连接下载导入规则
新加入对大数据量采集,不用将数据采集在本地而直接Web或数据库发布的功能
加了Http请求系统设置,对非常特殊的网页可通过设置这些特殊Http请求头进行采集
其他增加的一些小细节等等请打开软件继续发掘...... 修正BUG
支持.net2.0及.net3.5等框架环境下使用
修复了2008版采集时没有发送来源请求头的问题
修正了在Sqlite数据库下 下载缩略图非常慢的问题
修正了php外部编程接口在当用户windows目录下已经安装过php.ini的情况下执行出错的问题
修正了在发布时不能启用蜘蛛User-Agent的bug
对规则检测更加严格,可以避免因规则出错而导致的采集问题.
对规则编辑部分调整了显示区大小,编辑任务更方便.
测试时就可以测试文件下载,规则对不对,一目了然.
任务运行区状态显示更为友好.
修正了规则列表区上下移动位置进行排序的功能
更新了中文分词,修正了对人名识别和英文关键词的支持
修正了2008版在有文件下载时无法注销任务界面显示的bug
修复了2008版时间转化标签处对无法处理带斜杠的格式处理的bug
修正了2008版商业用户备用登陆服务器2,3工作不正常的错误
修复了暂停和停止显示错误的问题
修复了被窗体遮盖,进度条刷新显示错误的问题
修复了使用文件导入网址时界面假死的问题
修正了批量添加网址时在多倍数并倒序生成错误网址列表的问题
修复了2008版中flashget://类的地址同时是附件形式的下载不到文件的问题
修复了其他及2009标准版测试版中的一些bug

更新日期: 2008-08-13火车采集器 V2008版

功能简介:
1、重写的自动更新模块,新增自动更新调度管理器,可计算各任务下次启动时间,管理更加直观
2、重写的任务运行管理器,不再采集定时刷新的方式管理任务队列
3、更新了中文分词模块,加入了对词性和词频的分析,使提取的关键字更加准确,并可以挂接用户词库
4、修改了多页设置内在默认页采集得到地址不再使用正则规则,而使用[参数]标签组合结果的简单方法设置
5、WEB发布模块发布地址和引用地址内加入了随机登录值标签的支持
6、修正了时间转换标签已存在的bug,支持更多种时间格式的转换
7、修复了数据库入库超过两次后出现索引超出范围。必须为非负值并小于集合大小的错误
8、修正了随机登录值标签UrlEncode不成功的问题
9、去除了任务完成后的提示音
10、去除了系统设置内标题内容标签是否不得为空的设置,改为可以对任意标签进行设置
11、加入了对更多种下载文件格式的支持
12、修改单个标签可设置是否在分页中匹配的功能,分页与多页不再冲突,至此可以完美采集论坛的所有楼层及分页回复
新增功能 (部分功能分配到免费版及个人版)
1、加入了对Sqlite数据库的支持,本地数据采用Sqlite保存,相比Access性能得到巨大提高
2、加入了外部编程接口,用户可以火车采集器内使用自己编写的php接口文件处理标签数据
3、加入了可视化编辑器及高亮文本编辑框,对本地数据的后期编辑更加快速和直观
4、加入了内置FTP上传文件的功能,特别在自动更新时保证下载的文件同步更新到服务器
5、加入了对采集内容简体转繁体,繁体转简体及火星文之间的转换的功能
6、加入了对单个标签可设置必须包含不得包含,采集结果是否允许为空的设置,使采集结果更加精确
7、加入了对单个标签是否补全相对网址的功能
8、加入了对需要POST数据才能采集的列表类的网站的支持,实例中已能完美采集51job.com
9、加入了采集时可选是否检测重复网址的功能,增加采集的速度
10、加入了发布时可选随机发布的功能,实现文章的乱序排列
11、加入了分词测试工具、翻译测试工具
12、加入了自动识别网页编码和自己加载本地登录信息的功能,使设置更加简单,可实现采集多编码的多页网页

更新日期: 2008-01-23火车采集器 V3.2SP5版

功能简介:
修正了SP4中多个任务不能自动续采的问题
修正了SP4中分页采集出错的问题
修正了排除全部html标签出现索引超出范围的错误提示
增加同时入库SQL条数从4条到8条
修正了复制粘帖任务时程序假死的问题
修正了自动升级程序中关闭主程序不重新启动的问题
兼容了更多的http伺服器,AllowUnsafeHeaderParsing(允许不规格的http头)

更新日期: 2008-01-18火车采集器 V3.2SP4版

功能简介:
1、在任务中加入了[任务参数1]及[任务参数2]标签,可在任务右键菜单中修改,可直接用在WEB发布和数据库发布模块中
2、修改在线发布时的固定编码格式为任意编码可选的设置
3、增加了采网址、采内容、发内容分步操作的进度条显示
4、增加了一种新的标签格式:自增随机数字 可以生成以某数字开头的每次递增一随机数的数字,比如生成递增的时间戳
5、更新了下载文件类,进一步解决了对来源页检测和登录验证检测的文件下载的支持,增加了当前下载文件的查看功能
6、扩充了全局大小写的范围,采集分页需要大小写支持实例 http://www.lwcool.com/lw/newsfile/2007/2/10/2007210_lwcool_10350.html
7、使用全新的SOCKET类 解决了服务器提交了协议冲突. Section=ResponseHeader Detail=CR 后面必须是 LF的问题,测试地址:http://biotech.org.cn/news/news/show.php?id=56773
8、修改数据库发布设置时没有将测试的标签加载到测试窗口里
9、加入了自动检测升级版本的功能并能得到自动更新软件列表, 自动下载最新文件的功能
10、加入了自动报告BUG及建议的功能
11、在标签规则的排除和替换中加入可上下移动记录的功能
12、修正了在发布时来源页地址中未解析标签内容的问题
13、在所属采集页中加入了除默认页外的(采集页地址)这个页面,实现了可以对地址中变量的提取
14、修改了导入网址时大文件界面反应迟钝的问题
15、修改了自动插入(*)等字符时自动替换掉已选中的字符串的功能
16、替换了自动摘要中多余的空格和换行
17、导入导出任务去掉了多次确认框
18、增加了当有任务正在运行时突然关闭程序的跳出确认框
19、加入了对整个站点采网址,采内容,发内容状态的编辑
20、改变了配置文件的编码,增进了对繁体版系统的支持
21、增加了采网址时重复次数达到多少后是否继续判断还是跳过网址采集的设置
22、取消了文件是否在html项的设置,改为自动判断下载单条还是多条
23、修正了下载图片的同时可以下载文件的功能
24、全局关键词替换加入了对标题标签的替换-sp3仅支持内容标签
25、修正了保存为csv文件多内容换行时格式出错和缩略图下一行保存的问题
26、修正了Unix等系统的服务器区分URL大小写造成无法采集地址小写后页面的问题 参考:http://www.sfda.gov.cn/WS01/CL0051/index.html
27、全面启用log4net,日志异常记录更为全面
28、加入了是否补全缩略图网址的设置,可以根据自定义规则利用缩略图标签来采集列表页的内容
29、内容替换里加入支持参数替换的功能,实现对内容格式的随意组合
30、加入了是否在任务运行停止后自动注销任务显示界面的设置,利于回收资源
31、获取拼音加入了只获取首字母的设置
32、可以对中文URL地址编码进行设置,支持更广的非ASCII码URL格式支持,如你好,“地址”.html

更新日期: 2007-11-01火车采集器 V3.2SP3版

功能简介:
增加了对数据库发布设置的保存,针对任务可以和Web发布设置一样选择不同的数据库发布设置
增加了全局敏感词过滤和近义词替换功能 ----[该功能集成在标准版内]
增加了对非默认端口导出到Mysql和mssql的支持
增加了对单任务设置采集、发布线程数,间隔时间,及发布到哪定义为成功的设置
增加了强力时间格式转化功能,WEB发布模块增加[时间转换]标签和[系统时间戳]标签,可以将采集过的时间重新编排为任意格式或时间戳格式
增加了设置单标签是否循环匹配的功能
增加了压缩任务ACCESS数据库的功能
增加了迅雷&FlashGet加密解密工具
增加了软件对迅雷&FlashGet地址的解密并自动下载文件的功能 ------[该功能集成在个人,标准版内]
增加了系统对Form表单,li,ul,frame,hr,h1-7等html标签的排除,修正了无法排除Script标签的功能
增加了对每个标签可设置是否循环匹配的功能,结合添加为新记录可针对任何标签添加出多条记录
增加了对取出的内容中第一张图为缩略图并下载的功能
增加了起始地址向导添加内使用正则提取网址的功能
增加了任务列表向任务运行显示区拖曳后开始采集的小功能
更新了自动更新的设置方式,SP3中可设置按每天,每个星期中的那天,单次运行,在某个时间段内间隔多少分钟运行一次 ---- [该功能集成在个人,标准版内]
更新了手动分页的设置方式,可设置任意多参数和使用参数组合出分页网址
修正了在包含#符号的非锚点网址采集地址出错的问题
修正了在包含../../等上一级超过域名最顶级后地址出错的问题
修正了WEB在线发布模块编辑器内多次加载出现随机值列表框内值混乱的问题
修正了在下载文件时无法使用代理服务器的问题
修正了对部分网站采集无法得到源代码的情况
修正了下载缩略图时内容内缩略图地址无法对应的问题
修正了保存为TXT文件时没有保存缩略图的问题
修正了没有可采集网址和可发布的内容任务无法自动停止的问题
修正了带中文的网址在测试时可以采集但正式采集时无法采集到下级网址的问题
修正了中文网址采集时导入本地任务数据库[程序目录/data/任务名/SpiderResult.mdb]错误的问题
修正了导入文本网址时文本为空时预览报错的问题
更新了编辑任务时ESC退出的不合理设计,更改显示隐藏热键为Ctrl+F8

更新日期: 2007-09-26火车采集器 V3.2SP2版

功能简介:
增加了调用迅雷或FlashGet等成熟下载组件下载文件的功能 (该功能集成到高级版内)
增加了自动关机功能
增加内置浏览器自动抓取POST数据包的功能
增加了Shift+S软件显示/隐藏热键
增加了屏蔽默认缩略图功能
增加了[随机抽取值]标签,比如从自定义的作家中随机抽取一个作者
增加了设置内容中第一张图片为缩略图的功能
增加了发布内容间隔时间(以前采集和发布间隔时间一样)
增加了添加采集起始地址的预览功能
增加了开始采集地址内确认地址可删除的功能
增加了每次最大发布条数的功能,适合多次更新少量内容
修正了SP1中删除地址库和任务数据库失效的问题
修正了标签编辑框添加或编辑标签后的自动排列功能
修正了以前长期出现的采集过程中或打开全局配置出现未将对象引用设置到对象实例的错误
修正了排除script标签但保留了中间内容的bug
修正了批量添加时选中补零条件,时间隔倍数不起作用的一个bug
修正了使用Urlencode时没有对[采集页地址]标签encode的bug
修正了多次采集列表时会重复下载缩略图的问题
修正了自定义标签内系统时间的问题
修正了SP1中站点导出后不能导入的问题
修正了自动拼音中英文单词间无间隔符号的问题
完善了内置浏览器,增加多页浏览和自动抓取数据包功能
修正了原来系统时间12小时制为24小时制
完善了下载论坛附件功能,加入了对ftp地址的识别
完善了复制任务或标签后再粘帖生成多个副本保持名称不一样
修正了入库时对{和}正反大括号的排除问题
修正了SP1中PHPCMS,Supsite对用户客户端有要求的程序无法登录发布成功的问题

更新日期: 2007-09-16火车采集器 V3.2SP1版

功能简介:
优化了汉英翻译时的内存和可能出现两线程访问同一个cache文件的问题,使程序更加稳定
又纠正了自动更新中选择为分钟出现持续自动更新的一个问题
增加了编辑本地数据库执行SQL的功能,使得发布含有特定关键字的文章成为可能
修正了本地数据编辑器中标记内容项为已发或未发不成功的问题
修正深度为2时测试可以采集到网址,但正式采集为0个的问题
修正了设置程序发布到数据库定义为发布成功未生效的问题
已修正在采用非默认编码发布内容到网站时同时选择Urlencode会出现不是空格没有就是中文字符串乱码的问题
修正循环采集并添加为新记录时正式采集出现Unhandled Exception问题
修正了一个链接到空链接的相对地址补全的问题
改善了对[随机用户名]标签的支持
修正了自定义分页网址网址最大长度为255的限制
修改了模块编辑器,使刷新列表和获取随机值处支持任意标签
修正了自定义网址中的[文章编号]可以匹配任意字符的问题

更新日期: 2007-09-10火车采集器 V3.2正式版

功能简介:
采网址,采内容,发内容三个步骤可以分开分步操作
增加缩略图采集功能,并能保存到本地文件
增加多页采集,使采集多页下载链接或产品多页图片,参数,评论,价格内容成为可能
增加自定义网页编码类型,默认任何编码页都可以实现内部转换,都能正确采集,发布时请选择目标UTF8
增加循环采集(可采集列表和论坛回复列表类似的网页)
增加将循环采集匹配到的结果添加为新记录和间隔符分割的功能
增加内容采集中使用正则匹配的功能
增加WEB发布配置,保存每个网站的发布配置,单任务可以发布到多网站,但任务可以发布到网站的不同栏目
增加数据库发布模块,去掉以前的数据库直导配置,成熟的发布模块可以使不懂数据库结构的人使用数据库直导成为可能
增加分页采集自定义地址格式的功能,完善以前的分页采集中上10页下10页这种无法采集的问题
增加源代码查看和测试工具
增加软件内动态帮助,使用更为方便..
增加对任意采集标签里的内容自动生成摘要和自动拼音的功能
增加保存到本地SQL文件的功能(3.1中未完成),完善各种在线发布和数据库发布功能
改进了下载算法,使下载图片和其他任意格式的文件更快更稳
还有本地任务数据编辑再发布功能 ,
自动获取tag(生成中文关键词功能),
自动英文->中文翻译功能 ,
任务定时自动更新功能 ,
任意格式文件下载功能 ,
(ACCESS,MYSQL,MSSQL)数据库发布模块编辑器

更新日期: 2007-03-07火车采集器 V3.1版
加入了自动分析链接的真实地址和开放了Mysql,SqlServer的直接入库功能
更正了3.0.1基础上的N多Bug,不一一写出了,该版本是论坛上提及的VIP版本修改而来
更新日期: 2006-12-01火车采集器 V3.0.1 版

功能简介:
加入了对图片,Flash的断点下载功能
加入了正则匹配内容的方式获取内容
改进了3.0的内存释放
更正了特殊连接的获取,加强了对JS等页面的采集
修正了采集深度为0时无法采集的问题
删除了标题/内容标签不能删除的限制
修正了系统全局设置了标题,内容不得为空设置不起作用的问题
完善了sql连接的建立

更新日期: 2006-11-01火车采集器 V3.0版
 
更新日期: 2006-06-20火车采集器 V2.0版

功能简介:
1、完全重建的解决方案,完全重写的采集内核及全部代码。
2、加强了与用户的交流沟通,使用全新的用户界面,照顾小屏幕用户,以800*600分辨率为基础进行的界面设计。
3、提供了多种软件皮肤及可定义修改的菜单工具条,软件功能及界面可以在一定范围内由用户设置。
4、使用了站点+任务方式管理采集节点,所有配置采用ACCESS保存,方便了管理及之前重复复杂的操作。
5、由单任务到多站点多任务多线程采集。
6、同时最多可以实现5种采集后内容的发布方式。1-入软件数据库; 2-保存为本地文件; 3-在线POST到网站; 4-保存在本地及远程数据库;5-保存为本地标准SQL运行语句文件。
7、加入了采集深度的设置,对起始采集地址加入了链接文本导入的功能,将采集地址和及内容采集分步操作改为同时进行。
8、标签编辑加入了内置的集中常见规则类型的选择,并加入了基本HTML代码的排除功能。
9、修正1.X系统的文件下载bug,实现对任意二进制文件的分段断点下载。
10、加入内置微型FTP,浏览器,url传值加解密,查看网页源代码等几种辅助工具供大家在采集时使用。
11、避免重复采集&模块方面的更新&含有汉字的连接识别&单任务的全局/自定义设置等等等等......更多的功能及更新希望大家慢慢体会,不断发现。

更新日期: 2006-03-30火车采集器 V1.2.1版

功能简介:
1.增加了内置IE登陆自动记录cookie功能。
2.增加了风讯发表时空格问题选项
3.更新了DVBBS7.1SP1 1.24后的用户不能入库问题
4.核心程序做了一些变动
5.模块更新包已经包括在内
6.使用方法与以前相同。
7.增加了DEDECMS3.0模块
8.加入了数据库导出到MSSQL

更新日期: 2006-02-07火车采集器 V1.2.0版

功能简介:
1、重构了用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器。
独立出来由用户自定义提交自定义的登陆,刷新和发表的参数。各个cms系统都作成一个cms模块文件,放入程序文件夹下的/module/即可。
系统现自带了几个主流cms系统:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。
更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。
2、全新版的规则定义方式
①自定义标签:使用标签形式定义采集名,系统以后不再局限于老版本的标题,作者,出处,时间和内容5个标签,想定义多少个就多少。
②自定义标签下限定内容的个数,每个标签下用以限定采集内容使用的开始字符串,结束字符串,排除,替换,自定义个数,不再局限于老版本中的5个排除,2个替换。
③可以选定是采集内容还是采集连接。采集连接时程序自动分析里面的地址,HTTP形式的地址可以分析并探测得到真实地址。
3、完全去掉了大家比较头疼的正则表达式。改用系统内置通配符(*),无论是开始字符串,结束字符串,排除,替换遇到不确定的内容时,一个(*)全部可以代替。
4、强大的内容分页识别
您要做的只是用开始字符串和结束字符串定义一下 页面内分页的区域。支持可变内容通配符(*) ,然后选定一下该页面分页的形式:全部列出分页,上下页形式(较少),程序就会分析页面里的内容将所有分页合并起来。
新版分页功能支持自定义分页连接代码,如果结合到你强大的cms,比如dedecms分页代码为#P#,选择自定义合并分页后可以完全按原文章的样子,你采集生成的页面同样有多少页!
5、加入了内容标签循环采集功能
通常一个页面采集时只采集第一次匹配成功的内容,比如对论坛来说定义好规则后只能采集到第一楼的内容,您可以定义循环采集次数n,来限定采集多少次匹配的内容,0为采集全部匹配内容,默认为1次。
6、加入对来源网站和发表文章的目标系统的各种编码的支持
7、网址倒排序发表功能
8、完成系统自动探测地址,并实现对大文件的分块断点多线程下载 考虑到版权问题软件下载只到本地,不改连接,需要的PM我。
9、加入了设置代理服务器采集的功能。
10、由于用户可以根据自定义的标签对应修改提交的POST参数,相当于导入数据库指定表的功能,且不是对本地操作,因此该版本去掉了不甚完善的数据库导入功能。

更新日期: 2006-01-03火车采集器 V1.1.0版

功能简介:
1、加入了使用Post参数或已有的Cookie登录后采集需要登录的网页的功能。
2、加入了数据自定义配置数据连接导入Mysql的功能。
3、针对有人不会使用正则的情况,本期再加入了两个替换规则。
4、去掉了标题采集中忘记去掉的调试跳出窗口。
5、修正了一些时候程序自动分析相对网址出错的情况。
6、系统正在尝试改结构,自定义规则正在完善中,以后大家可以定义任意标签,排除和替换规则和选择采集内容还是连接,采集多页会在下期新版规则定义中推出。

更新日期: 2005-12-13火车采集器 V1.0.4版

功能简介:
1、加入了对PHPCMS2.3文章系统的支持。
2、加入了对LeadBBS3.14论坛的支持。
3、加入了对心雨动网CMS1.14文章系统的支持
4、加入了对EpCms文章系统的友情支持。
5、加入了用户自定义网址连接形式选项,可采集到因js调用系统不能自动识别的网址。
6、单线程改为多线程采集标题,防止程序因网速问题假死。
7、网址集合生成时可选择正/倒序排列、实现了树的可拖曳性。
8、入库功能继续制作中,准备在下个版本中推出雏形。

更新日期:2005-12-03火车采集器 V1.0.3版

1、加入了对PHPWind4.01的支持。
2、加了对采集的文章获取标题的功能
3、加入了对文章内容进行替换的功能
4、程序自动保存用户设置
5、程序使用时的一些小提示
6、采用手动提交cookie的方式修复dede等采用session方式登陆的系统有时不能登陆的问题
7、某些系统对url大小写敏感时图片,flash下载出错的问题
8、修正了水印图片功能
9、去掉了下载图片flash后带的chinacnw_com的文件名
10、数据入库功能连接设置预览

更新日期:2005-11-25火车采集器 V1.0.2版

功能修改:
1、加入了对图片进行批量文字,图片水印功能。
2、加入了对Dvbbs7.1.0的支持。。
3、修正了一些小错误。。

更新日期:2005-11-21火车采集器 V1.0.1版

功能简介:
1、多系统支持,现已加入对PHPWIND,DISCUZ,DEDECMS2.X和PHPArticle2.01的采集支持。
2、模拟用户登录,和操作浏览器一样,但程序只处理核心数据,运行速度更快。
3、可以设定是否将远程图片及Flash下载到本地,程序会将其自动获取到其绝对地址)。
4、多线程,时间间隔设定 可以根据您的机器性能和网速或系统允许的文章发表时间设定
5、较强大的网址采集功能,配合页面内定义区域采集、手动生成网址及采集二级页面功能基本上可采集到您所要的任何网址集合。
6、内容规则定义有多条内容过滤规则,彻底过滤掉内容里的广告等无用内容。
7、网址集合、内容规则导入、导出功能,方便网友共享采集到的内容。
8、论坛支持Html和UBB发帖两种模式。