火车采集器

首页/下载/火车采集器软件
火车采集器V7.7正式版免费发布
授权: 免费版
更新: 2013-09-17 11:05:01
语言: 简体中文
平台: Win2000/WinXP/Win2003/Win7
大小: 28.1MB
下载: 0
简介: 2013-04-10更新
1.gif的图片不再加水印,修复加水印文字时没有判断加水印条件的问题
2.增加了迅雷快传,YunFile,千脑,金山网盘文件上传功能。
3.增加了用户可以选择删除记录时是否删除下载文件的选项。
4.增加了日志记录,通过上传文件功能。
5.增加了批量导入数据导入网址功能
6.添加了发布时使用代理功能。
7.修复当使用一般采一边发方式时保存为本地excel不起作用的bug。
8.文件保存格式中支持[标签:ID],可以将记录的id做为目录的一部分了
9.处理了一个将$编码错误的问题
10.增加若干个错误检查,防止采集器退出
11.更换汉字转拼音词库,汉字增加到1万8.
12.更新自动补全链接中迅雷地址补全不对的问题。

2013-01-14更新
1.修复使用一边采一边发时不执行采集完成后操作的bug.
2.增加了使用mssql做本地数据库时给id加了索引
3.批量处理中添加了“当所有的发布方式中所有配置都发布成功才标记数据为已发”
4.生成txt或html文件时,处理了个别情况下在记事本中显示小黑块的问题
5.修复探测文件下载时,单条地址的必须包含选项没有生效的BUG
6.修复补全网址时,遇到thunder://这种情况的处理不正确的问题
7.增加多页提取的限时。

2012-12-06更新
1.修复使用php插件时,路径太长时和网址很长时出错的bug.
2.增加了对任务批量处理时单个标签的处理功能。
3.正文提取部分增加了提取方式选项。
4.任务批量处理部分增加了更多的选项。
5.修复AcceptLanuage的没有添加到下载中的问题
6.增加了“添加或执行额外的Sql语句”的功能
7.计划任务增加了一个全选的右键菜单
8.修复一个添加Excel时字符超过32767就出错的bug.

2012-11-06更新
1.修复win8系统不能使用加密狗的bug
2.修复部分电脑上加密狗版本频繁退出的bug
3.修复mysql网址库大于20万时出错的bug
4.修复post实际采网址时缺少一页的bug
5.修复ocr识别时图片背景为透明无法识别的bug
6.增加了使用post方式登录的自动登录功能。
7.修复一个恢复删除时提示错误的bug
8.添加选中任务时可显示对应运行窗口功能。
9.增加了word生成时插入图片的功能。
10.修复多线程下载时referef不对的问题
11.修复判断网址重复时的字典重复键问题
12.修复恢复删除任务的bug
13.修复运行日志无法显示的bug
14.增加批量设置下载为同步和异步方式

2012-09-12更新
1.修复UBB处理中部分空白字符显示为问号的BUG
2.探测文件并下载时部分图片地址探测问题的修复。
3.包含和不得包含增加了全部包含和全部不包含功能,用↑做分隔符
4.修复部分特殊情况下无法抓取cookie的一个问题。
5.修复多页分隔符错误的bug
6.修复导入错误代理地址后程序退出的bug
7.修复文件探测时部分不规范下载地址添加下载失败的问题
8.修复旧版规则中有文本网址时导入失败的bug
9.HttpPostGet工具的一些问题的修改,支持有参数的多次提交。
10.修复出现colum 字段名 is not uniqueInt32 的bug.已出现此问题的用户请先在该字段上加不得重复,然后保存后再去除不得重复并保存即可。
11.http服务器增加了ocr调用和正文识别调用。

2012-08-21更新
1.修复多处导致采集器无故退出的bug.
2.标签添加了随机插入功能。
3.修复部分情况下网址中有端口时无法获取cookie的bug.
4.修复了起始网址中多个条件时不得包含和包含存在的bug
5.时间格式的网址增加了一个时间向前推若干天的功能
6.修复计划任务中部分情况下的0时跳过的bug.

2012-07-25更新
1.对计划任务进行了修改
2.ftp上传失败时,增加了一次重试
3.修复命令行启动采集器时的bug
4.修复简繁互转中的bug
5.修复正文提取中</p>提取成<p>的bug
6.web发布配置中增加了超时和Accept-language
7.修复了当图片为压缩传输时文件加水印有误的bug.

2012-07-04更新
1.Web发布时增加了如果标签值直接为本地文件地址也可Web上传发布功能
2.多页管理那块的跳转以无限级规则中该多页所属上一级的跳转为准
3.其它细修改
4.添加了扩展E商统计 http://board.locoy.com/?post=131


2012-06-19更新
1.修复入库测试时测试结果显示不全的bug
2.修复ubb转换中对embed转换有问题的bug
3.修复生成网址时出现未将对象引用设置到对象的实例的问题
4.增加时间转换中支持将时间戳转换成指定时间格式
5.增加csv发布可以选择使用自定义模板
6.增加数据处理中http请求提取增加了提取html正文功能
7.增加web发布方式中text/plain发布方式
8.修改任务编辑中测试发布使用用户设置的栏目。
9.增加用户选择不提示后不再显示气泡提示信息。
10.标签的包含和不得包含增加了是否忽略大小写功能。
11.修复对列表页标签进行标签组合后没有进行数据处理的bug.

2012-06-01更新
1.修复当使用mysql为本地数据库时新添字段编码有误的bug
2.修复分页识别时baseherf没有处理导致分页地址错误的bug
3.增加列表页中不允许标签的检测,防止用户误操作。
4.如果xpath中含有tbody的标签会解析不了的bug
5增加了对个别服务器下载文件时Content-Disposition格式不规范的处理。
6.分页合并符循环时的一些处理
7.让固定值也可以参加循环
8.增加一个设置,可以让用户添加某些禁止head方法的网站
9.修复一个CheckSpier的错误。
10.处理mysql不兼容引起ncorrect arguments to RAND的问题

2012-05-16更新
1.屏蔽掉httpwebpost中浏览器的脚本错误提示
2.修复使用偏好中的采集器没有开机启动和关闭窗口选项没有启用的bug
3.对mysql和sqlserver做本地服务器建了索引,解决了大数据量时查询出错的问题
4.细节修改,如在线发布里面的COOKIS可以全选,多页默认传前页user-agent给多页
5.增加了多个任务在只使用一个任务运行窗口,减少资源使用
6.更改任务运行完关机方式为只生效一次
7.修复一个当多页获取为空时网址成默认页的bug
8.插件中没有处理 UseGetStepUrls 的bug
9.httpserver 增加了列表分组,自动启动,和新建任务返回分组和任务id
10.对用户对标签组合再次标签组合进行了允许处理。
11.修复对列表获取的内容,部分情况下会补全的bug
12.修复多页管理时特殊情况下新建标签没有保存的bug
13.修复部分情况下标签提取大小写无效的bug
14.修复如果一个标签出现多次时间转换转换部分无效的bug.
15.修复了ubb转换中部分转换错误的bug.
16.增加了将下载地址保存为html文件的功能。
17.增加了web发布时网页超时设置
18.修复本地数据库使用Access时任务数据批量工具清理已发数据无效的bug.
19.修复任务完成后关机设置取消后还会再提示关机的bug
20.修改部分电脑上Mongodb服务不能识别的bug


2012-04-16更新
1.增加了对于用户添加不得重复标签时,如果原数据库有数据则提示的功能
2.增加了web发布配置部分可以多选
3.导入任务时,如果原任务有发布配置也一并导入没有做判断的bug
4.修复标签合并后有列表页标签时没有对数据处理进行处理的bug.
5.修复发布失败时对失败标识符判断错误提示发布未知的bug.
6.修复了在使用插件时对不符合条件判断次序错误的bug
7.修复一个自动提取抓取的数据包时的一个错误
8.修复本地编辑文件无法查看图片的bug
9.修改同义词替换为从上往下依次替换。
10.修改了任务添加web发布配置时可以多选添加和删除。
11.修复了使用mysql作数据库时去掉标签不得重复功能时出错的bug.
12.添加了导出任务时将同义词也一并导出功能
13.修复了当多级网址中有重复时程序给跳过采集的bug
14.添加了当所有的发布方式中所有配置都发布成功才标记数据为已发
15.解决了当用户规则非常多的情况下新建编辑任务非常卡的bug.
16.解决了部分情况下当循环添加为新记录时因循环中不包含而导致原正确记录被删除的bug
17.增加了标签替换功能中对标签值的简单替换
18.允许多次粘贴任务

2012-03-31更新
注意,请在用AutoUpdate.exe升级完平台以后,打开软件中的扩展菜单,在扩展设置中,对火车采集器进行升级。
本次更新修复的内容主要有:

1.增加了对用户输入0级网址的检测,修复了可能存在#导致采集失败的问题
2.增加了空内容缺省值设置功能
3.修改了无限级规则修改多页名称时有部分没有修改过来导致错误的bug
4.修复了采网址中多级网址有标签提取时下级标签提示提示键值重复的bug
5.修复探测文件真实地址但并不下载时网址没有替换成真实地址的bug
6.修复了导入旧版本规则时处理列表页标签的bug.
7.修改了右击测试网址时,第一次当前网址没有传过去的bug
8.增加了分析数据时循环匹配超时检测,防止由于用户规则有误导致程序无响应.
9.修复图片水印部分出错的bug
10.去掉了默认第一个分组总是展开的功能
11.采集网址中+被编码的问题。
12.修复了一个记录中一个文件同时多次下载的域名前缀问题
13.修复本地编辑时源码界面和视图界面转换时的一个bug
14.修复循环标签中如果某个标签不得重复时出现重复内容时提示信息错误的bug
15.修复在web发布配置管理中编辑模块时强制编码没有添加到界面上的bug
16.对旧版升级时过多的规则升级为同义词替换的一个优化
17.增加了选中分组时点击运行按钮运行该分组下所有任务的功能。
18.修复任务批量处理时PHP插件配置没有复制的bug.
19.增加了任务批量处理时全选和反选功能
20.更改了选中分组时,该分组下所有分组中的任务也全部更改。
21.修复使用老板键时托盘没有隐藏的bug.
22.对于出现 并且已被选作死锁牺牲品 情况,会重新运行一次事务
23.修复按字母生成网址时无网址生成的bug
24.采网址时出现 Object reference not set to an instance of an object 的bug解决。
25.修复了php插件在处理采网址时提取网址不是从插件处理后的代码中提取的bug.
26.增加了附加参数的补全网址和补全单网址功能
27.修复了一种情况下补全网址错误的bug
28.无法使用ftp继续上传和继续下载功能修复
29.修复部分情况下http请求没有处理ContentEncoding的值为none时导致错误的bug.
30.修复web发布模块在修改post参数后模块名称改变的bug
31.修改在多页中,用当前页做为多页的引用页。


2012-03-20更新
注意,请在用AutoUpdate.exe升级完平台以后,打开软件中的扩展菜单,在扩展设置中,对火车采集器进行升级。
本次更新修复的内容主要有:
1.修复版本升级和规则导入时对文本网址没有导入的bug
2.修复分页链接符和循环连接符的[换行]问题
3.修复php插件无法操作保存时的bug
4.修复保存为word文档时没有换行问题
5.修复列表页获取网址时没有处理htmldecode导致部分网址重复的问题
6.增加删除网址和数据的时候增加了提示
7.修复多站点完全乱序发布没有完全乱序的bug
8.增加了web发布错误后的错误文件如果大于500k,删除它,方便用户查看。
9.修复发布模块设置的密码在再次编辑后没有保存密码的bug
10.修复SqlServer中手动更新内容出现N前缀的bug
11.修复测试采集时小猴子图片不动的bug
12.修改当用户设置列表页标签不得重复时提示方式
13.修复Sqlserver中导入0级文本网址出现错误的bug
14.增加测试发布完成后几秒关闭窗口的功能
15.修复了多级post时使用插件而随机值没有从插件返回代码中提取的bug.
16.修复ftp上传时对部分ftp返回结果没有进行大小写处理而导致550错误的提示bug.
17.去掉了同义词替换时对相同词替换进行合并的处理。
18.更改了复制任务时保存数据没有处理到网址库的bug
19.处理了包含和不得包含条件中对|的转义问题,可以使用\|来代表|本身
20.修改了在用户对标签编辑保存后不再对内容进行清空。
21.增加了对于户在任务编辑处设置了每页显示条数据保存用户配置

2012-03-12更新
注意,请在用AutoUpdate.exe升级完平台以后,打开软件中的扩展菜单,在扩展设置中,对火车采集器进行升级。
本次更新修复的内容主要有:
1.同义词替换增加了双向替换选项,规则增加了区分大小写功能。
2.修复本地编辑任务数据时发布无效的bug
3.对出现404或501错误时,没有正确获取到数据时提示存在问题的bug。
4.对旧版日期格式进行升级处理。
5.插件管理器应给一个新建和编辑的功能。PHP错误的话也要提示一下。
6.使用采集器中多页管理功能时默认非1级user-agent为空修改为不为空
7.对多页默认设置了user-agent
8.允许开始和结束字符串同时为空
9.插件管理器设置了php编辑工具。
10.解决oracle入库提示数据太多的问题
11.修改同时采发,如果出现发布失败,数据库中仍是已采的设置
12.修改采集时测试发布文件多次上传的bug
13.代理增加了验证的超时验证,默认缩小到托盘,批量导入二级代理,页面地址可以保存,可以从txt导入代理。
14.对下载的文件如果文件名是编码过的,尝试进行解码。
15.点击欢迎页的Web发布配置和入库管理后弹出很多窗体的bug
16.设置好手动填写分页规则保存后,再打开没有显示手动选项选中的bug
17.分页合并没有起效的bug
18.修复升级程序没有设置User-agent导致部分规则出错的bug.
19.修复了循环采集时文件没有下载的bug
20.php插件添加了出错后返回错误代码的功能
21.修复Web发布,入库以及保存本地文件中[采集页网址]的没有替换bug


2012-02-28 更新
注意,请在用AutoUpdate.exe升级完平台以后,打开软件中的扩展菜单,在扩展设置中,对火车采集器进行升级。
本次更新修复的内容主要有:
1.修复部分FTP不能一次性切换目录的问题的修复
2.修复升级程序升级时对原分页区域没有更新的bug
3.修复对文件保存目录没有升级的bug
4.修复提示“检查旧版Database.xml文件失败或文件不存在的bug”
5.修复如使用自定义获取网址时没有设置标签附加标签无法获取值的bug
6.打开主程序时提示dll要注册的问题解决
7.全局变量没有保存的bug修复
8.修复模块升级及转换时,如果有原两个&间有多个=符号时转换数据丢失的bug
9.修复本地编辑采集数据时使用sqlite提示修改错误的bug.
10.使用mysql或是sqlsever时内容不得重复的问题
11.更改删除任务时不删除下载的文件
12.更新php至5.3.10,默认扩展全部增加
13.复制任务时新任务使用新网址库
14.修复入库时失败也提示成功的bug.
15.增加了网址中文编码自动探测功能
16.去掉本地保存文件默认为选中的选项
17.使用SqlServer时保存超万0级网址出错的bug
18.增加了内容发布参数中,表单名也可以添加标签
19.无限级规则中的0级采集规则的高级属性也影响列表页采集
20.修复部分规则升级后提示xml载入错误的bug.
21.修复升级旧版采集规则中自定义规则中的标签没有提取的bug
22.修复记录被删除或未采但文件仍有下载的bug.
23.增加启动时自动清理临时文件夹功能
24.修复使用XPath方式时没有添加附加参数的bug
25.更改升级程序中的存在一个或多个分类预留值的情况下,升级第一个分类预留值为全局变量
26.修复列表页组合无效的bug


2012-02-23 更新
注意,请在用AutoUpdate.exe升级完平台以后,打开软件中的扩展菜单,在扩展设置中,对火车采集器进行升级。
本次更新修复的内容主要有
1.在计划任务列表中,选中多个计划任务,可以批量进行修改了。
2.对多级网址列表,增加自动调整次序的功能
3.对多级网址列表,增加自动调整次序的功能
4.修复旧版本升级后Web发布设置丢失以及使用MySql或Sqlserver做默认数据库升级后提示启动失败的bug
5.修复文件下载时总是以/为域名前缀的bug.
6.修改对web发布以301或是302跳转的页面不能自动跳转的问题
7.修复计划任务重命名时的错误提示
8.修复附加标签没有保存的bug
9.在本地编辑任务采集数据时同义词替换功能不起作用的bug
10.OCR识别时部分情况下出错的bug
11.文件保存路径的标签名里含有时间转换字符 的bug
12.PHP插件运行时提示错误的一个bug
13.修复了中文地址URL采集出错的一个bug

--------------------------------------------------------------------------------------------


先来段广告先:
1、求粉求关注,火车头数据采集平台(http://t.qq.com/LocoyPlatform)为火车采集器官方微博,长期发布相关软件动态,求关注。
2、今天至明天止在微博送出三套软件。详情请访问:http://t.qq.com/p/t/47200017657213
3、火车采集器5年来功能不断增加,未曾做过价格调整,但限于国内居高不下的CPI水平,今起价格做微幅上调,执行新价格标准,即日起至本月底,10天优惠期内购买升级软件9折,有意者请在上班时间内联系我们企业QQ:800019423。

正题:

让大家久等了。新版本火车采集器经过一年的开发,终于和大家见面了。新版本对程序进行了完全的重构,升级为全新的采集平台。软件也更名为 火车头数据采集平台 。火车采集器是火车头数据采集平台的默认扩展。以后大家可以在该平台上运行论坛采集器,微博采集器,站群客户端,XX采集器。企业用户还可以使用我们提供 的API,开发有自己特色的采集器在平台上使用。

新版本添加的功能有:
1、无限级多页采集,可以实现无限深度的采集
2、任务队列运行管理,支持Cron表达式
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口管理采集器运行
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Mongodb数据库保存数据
25、主从服务器分布式采集
26、内置浏览器Cookie获取功能增强
27、任务列表树支持无限级分组
28、Web发布和数据库入库支持插件功能
29、起始网址支持等差等比数列
修改的功能和修复的问题限于篇幅问题就不一一列出了。

安装使用:下载软件包解压后直接运行 LocoyPlatform.exe启动软件,(保证您的电脑安装有.net2.0框架,vista及win7系统用户可能会提示请求管理员权限,请放行)。
升级:若要从3.2sp5,2008,2009或2010版直接升级到火车头数据采集平台1.0版,请运行程序目录下的 UpdateTo7.0.exe,按提示进行升级即可。升级程序不会对原来的数据进行任何的修改,但为了防止用户误操作,请在升级前备份旧版本数据和配 置。备份方法是将原采集器完整复制一份。
商业版:商业版用户请从商业用户通道,会员中心,论坛商业用户区版块下载到统一的商业版软件,使用用户名或密码登录软件,如果您的升级服务期限在2012-02-20后,则可以免费升级到V7版并使用。


注意,此链接为免费版,商业版用户请登录会员中心[ http://www.locoy.com/buy ]或在论坛商业用户区下载。

------------------------------------------------------------------
后记:终于完成了,技术部所有同仁们可以吃饭了,有问题大家给我们留言,明天再说了!!~~

-----------------------------------------------------------------------------------------------------------------------------------

[错误报告] [打印] [关闭]