当前位置: 首页 > 审计论坛
大数据审计中爬虫的运用
信息来源:赣榆区审计局 发布日期:2021-02-04 浏览次数: 字号: [小] [中] [大]

一般情况下,审计数据采集大部分采用的是直接拷贝和指定格式采集的方式。直接拷贝是指审计人员判断采集的数据内容,然后根据被审计单位使用的财务软件(如新中大、用友)的使用特点,利用软件数据库已经预设好的指令去提取转换审计人员所需要的数据,并将其保存为Excel等格式。指定格式采集是指审计人员与被审计单位约定好数据的格式,被审计单位按照要求将自己的相关数据转换成约定的格式,比如说文本文件格式,这种大部分数据库都能够直接读取的格式,从而省去了两种不同数据库对接的问题。

其次,网络采集数据的方法,由于没有统一的方法和技术,需要耗费大量时间和精力,往往难以实现,这大大限制了审计人员进行审计分析的范围,同时也使审计的取证率难以达到预期。

网络爬虫技术又被称为网络蜘蛛,是一种按照被设定的规则自动获取网页内容的程序脚本。目前,网络爬虫技术被越来越多的运用于互联网中,它能够根据不同的程序代码设定指令,自动获取网页内任何权限的信息数据。程序开始后,按照设定程序,网络爬虫会不断地从URL抓取用户需要的内容,直到满足停止条件,并对抓取到的数据进行分类整合处理,用户可以根据自己的查询需求,从中筛选自己所需要的数据。通过网络爬虫能够为大数据分析提供更高质量的数据源。

在选择网络爬虫技术时,基于Python的网络爬虫技术具有以下优点:一是简洁方便。Python语言最大的特点就是只需要一个简单的编辑器就能满足大部分用户的网络爬虫技术需求,可以让操作人员很快地适应环境,而不用花费过多的精力;二是具有框架技术。如果所需要抓取的数据量较大,则可以使用Python的Scrapy框架实现,它能提供一个功能强大的模板来实现爬虫,仅仅需要按照需求进行简单的修改就可以使用,而不是去进行重新的开发。

另外还可以利用爬虫工具——“八爪鱼采集器”进行爬取,实施步骤包括:一是通过网络搜索,确定待爬取的网站。二是点击相关链接,进入网站首页,锁定待爬取网站的网址。三是利用爬虫工具,定义采集规则或任务,定位到承载信件信息的数据表格并依次提取表格中的字段内容,根据网页信息采集相关数据。四是分析网址的变化规律,设置循环自动采集。五是进入数据采集页面,启动采集任务,由软件按照设置好的爬取规则从网站爬取相关数据。六是待所有任务完成后导出数据表,输入关键字进行查询,即可筛选出关键字的问题线索。(赣榆区审计局 于嘉淼)

苏ICP备 05002003号 

苏公网安备 32070502010522号