南京市地方税务局数据仓库应用案例
南京市地方税务局主要负责征收:营业税、企业所得税、个人所得税等十七种税费,其中许多税种与普通百姓密切相关。税收征管形式主要采取区域管理的方法。日常的征收管理工作主要有税务登记、纳税申报、税法宣传。
发票发售管理、税款征收、减免税管理、税务检查及受理税务违法举报案件等。由于业务的需要,地税局建立有税源监控、申报纳税、税务检查和税务代理的税收征管业务系统以及其他子系统如财务系统、人事系统、办公自动化系统等。
由于业务的开展,南京地税局积累的数据随着时间而不断膨胀,并且数据分布在不同的系统平台上;由于业务的变化、OLTP系统的升级和更新换代,使得数据具有多种存储形式,表达方式不统一。由于数据量大,查询响应时间无法得到保证;由于数据分散,地方税务局的管理者和决策者很难以一个统一的视图来获得整个地税局的全局信息。而且现有的OLTP系统可能存在数据缺损和不完整的问题,从不同角度和口径得到的统计结果可能出现不一致,很难为决策支持提供可靠的依据。同时,现有的OLTP系统提供的查询、分析功能简单、界面不够友好、展现方式单一,分析人员很难随时按自己的分析需要得到结果。例如:各月税收收入增长率趋势变化情况、税金在时间维度上的变化情况、税户变化的历史情况等。现有的OLTP查询系统大多为客户/服务器结构,客户端维护复杂,查询分析人员的查询访问受物理位置的限制。
面对如此多的问题和查询访问人员的抱怨,在2001年下半年,南京市地方税务局对数据仓库系统进行了选型,通过对数据仓库解决方案的对比、测试和论证,最终选择了Sybase的产品和Sybase专业化的咨询服务,南京市地方税务局的四个行业专家和Sybase的八个专业咨询服务人员共同参加了该系统的开发。Sybase专业咨询服务人员进行数据抽取、装载和前端应用展现功能的开发。
南京市地方税务局数据仓库系统的目标是:一方面通过数据仓库系统的建设过程,实现南京市地税局历史数据和异构系统数据的清洗、转换和整合;另一方面,由于原有的多个OLTP系统中,或多或少都带有一些决策支持功能,通过建立数据仓库,缓解现有OLTP系统中的决策支持查询、报表的压力;最终要实现企业级数据仓库的多维分析功能,为地税局领导决策提供理论基础;同时在数据仓库的运行过程中,能够对进入数据仓库的数据移动、安全和元数据进行管理。
南京市地税局现有的OLTP系统包括:市中心税收征管业务系统、五个郊县的税收征管业务系统、数据处理中心、个体税收征管业务系统。市中心业务系统、五个郊县的业务系统和数据处理中心的数据存储在Sybase Adaptive Server Enterprise数据库中,个体业务系统的数据存储在MS SQL Server数据库中。通过数据集中、抽取和转换,将数据加载到数据仓库中,供地税局领导和工作人员访问。
·源数据部分:现有业务系统数据库,包括Sybase Adaptive Server Enterprise、MS SQL Server.
·数据集中服务:通过Sybase Replication Server完成源数据到数据集中区的数据增量复制。Sybase Replication Server具有异构数据库环境的数据集中能力,可以实现数据的实时增量复制功能。
·数据集中区:用Sybase Adaptive Server Enterprise管理通过Sybase Replication Server复制过来的数据,包括首次集中的业务系统的全部数据以及业务变化所生成的增量数据。
·ETL部分:通过PowerMart将数据从数据集中区经过处理以后加载到数据仓库存储环境中。由ETL服务器和开发环境组成,完成数据的转换、清洗、转换及加载。
·数据仓库存储:使用Sybase Adaptive Server IQ,实现数据仓库中数据的存储和管理。Sybase ASIQ是专门为数据数据仓库的高性能数据分析而设计的数据存储引擎,具有专利的查询处理技术:按列存储、最优化性能算法、数据压缩技术,使IQ具有100倍于传统RDBMS的即席查询能力。但对于传统的关系型数据库系统,大数据量情况下查询效率低,且由于数据的膨胀,会产生硬件和维护等附加开销。而IQ在时间开销、资源开销上都相对很小。
·数据展现:使用Business Objects的产品,实现数据的展现和分析。Business Objects提供基于WWW服务器/浏览器的配置方式及基于客户/服务器形式的配置方式,本系统中将以WWW服务器/浏览器的方式为主。
·元数据管理:在数据从源数据系统到数据仓库到数据展现的过程中,都会伴随着元数据的管理。通过Sybase Warehouse Control Center负责本系统中的元数据的管理和维护。
在系统配置上,由于数据抽取是采用Sybase Replication Server实时增量进行,数据量相对较少,因此12个CPU的SUN6500作数据仓库服务器的同时也兼作Sybase Replication Server和数据集中服务器。同时用一台NT Server就可以完成增量数据的ETL功能。对于前端展现服务器,Business Objects具有Cluster的能力,可以根据用户访问数量的增加,动态地增加NT Server的数量,通过多台NT Server均衡负载,来支持更多用户访问。
通过建立数据仓库系统,南京地税局的管理者和决策者可以通过浏览器,以一个统一的视图访问地税局的全局信息,由于进入数据仓库中的数据经过了清洗、转换,保证了数据的正确性、一致性和完整性。同时可以让信息访问者以更快的查询返回速度、更友好的界面、更丰富的图形、图表方式实现即席查询、动态报表和多维分析,达到了预期的目标。使用浏览器方式,使信息的访问者可以在网络的任意位置进行查询、分析,实现了零客户端维护。并且通过本项目的开发,为南京市地税局今后对数据仓库系统的维护和进一步完善积累了经验。