数据采集解决方案
随着大数据时代的来临,人们对大数据的认识也越来越多,数据分析也越来越重要,数据采集就会变得尤其的突出。这其中包括:
数据源多种多样
数据量大,变化快
如何保证数据采集的可靠性的性能
如何避免重复数据
如何保证数据的质量
根据采集的方式不同,LDSports乐动体育可以将数据采集分成三类:基于Agent代理模式、基于网络分流模式、基于审计采集系统
基于Agent代理模式
基于Agnet代理模式是在应用系统中安装采集Agent,Agent负责收集系统日志和业务日志,并按照一定的格式输出到大数据存储平台中。目前开源的主流采集平台以Apache Flume、Fluentd、Logstash为代表,商业采集平台以Splunk Forwarder为代表。
当需要采集的数据无法按照已有代理采集时,可以采用自定义脚本的方式采集。
基于网络分流模式
在大数据应用中,LDSports乐动体育不仅仅需要采集系统和业务日志,常常是需要对多个维度的数据进行关联性分析。网络流量数据 也就成了大数据平台不可分割的一部分。针对网络流量数据,LDSports乐动体育可以采用网络分流设备、网络端口映射以及现有网络设备的NetFlow技术来采集。根据业务规模和场景选择不同的技术。例如LDSports乐动体育可以采用恒为的分流设备将流量汇聚到统一出口,再根据业务特点选择需要分析的业务流。这里使用的专业网络分流设备,在生产环境中有些网络设备也支持Flow导出技术,例如可以利用Netscaler APPFlow技术将流量导入到Splunk中进行分析。
基于审计采集系统
在生产环境中,LDSports乐动体育为了解决某个点安全问题时,往往会部署一些数据库审计、堡垒机、IPS\IDS等安全设备。这些设备本身已经保存了大量的业务日志数据,LDSports乐动体育同样可以将这些数据采集出来结合其它数据做多维度分析。