机巡数据存储要求 数据采集系统
一、大数据是什么概念
世界包含的多得难以想象的数字化信息变得更多更快……从商业到科学,从政府到艺术,这种影响无处不在。科学家和计算机工程师们给这种现象创造了一个新名词:“大数据”。
所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢?
一:大数据的定义。
1、大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
2、大数据技术,是指从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这个手机的开始数字是一八七中间的是三儿零后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。
3、大数据应用,是
指对特定的大数据**,集成应用大数据技术,获得有价值信息的行为。对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务
需求、数据**和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展,才
能充分实现大数据的价值。
当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,重要的是如何使用。大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
二:大数据的类型和价值挖掘方法
1、大数据的类型大致可分为三类:
1)传统企业数据(Traditionalenterprisedata):包括 CRM
systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
2)机器和传感器数据(Machine-generated/sensor data):包括呼叫记录(CallDetail
Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
2、大数据挖掘商业价值的方法主要分为四种:
1)客户群体细分,然后为每个群体量定制特别的服务。
2)模拟现实环境,发掘新的需求同时提高投资的回报率。
3)加强部门联系,提高整条管理链条和产业链条的效率。
4)降低服务成本,发现隐藏线索进行产品和服务的创新。
三:大数据的特点
业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。具体来说,大数据具有4个基本特征:
1、是数据体量巨大
数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;
百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前
为止,人类生产的所有印刷材料的数据量仅为200PB。
2、是数据类别大和类型多样
数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化
数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
3、是处理速度快
在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
4、是价值真实性高和密度低
数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
四:大数据的作用
1、对大数据的处理分析正成为新一代信息技术融合应用的结点
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya
Krishnan,卡内基·梅隆大学海因兹学院院长)。
2、大数据是信息产业持续高速增长的新引擎
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
3、大数据利用将成为提高核心竞争力的关键因素
各行各业的决策正在从“业务驱动”
转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费
者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和*物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
4、大数据时代科学研究的方法手段将发生重大改变
例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
五:大数据的商业价值
1、对顾客群体细分
“大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。
2、模拟实境
运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现*炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。
云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以
数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案
投入回报高。
3、提高投入回报率
提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。
4、数据存储空间出租
企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用
户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚
马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。
5、管理客户关系
客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失
率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新
产品预告、特价销售通知,完成售前售后服务等。
6、个性化精准推荐
在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分
析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。
以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上**优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。
7、数据搜索
数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。
运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“**搜索”。
六:大数据对经济社会的重要影响
1、能够推动实现巨大经济效益
比如对中国零售业净利润增长的贡献,降**造业产品开发、组装成本等。预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。
2、能够推动增强社会管理水平
大数据在公共服务领域的应用,可有效推动相关工作开展,提高相关部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择佳路径,从而改善城市交通状况。
3、如果没有高性能的分析工具,大数据的价值就得不到释放
对大数据应用必须保持清醒认识,既不能迷信其分析结果,也不能因为其不完全准确而否定其重要作用。
1)由于各种原因,所分析处理的数据对象中不可避免地会包括各种错误数据、无用数据,加之作为大数据技术核心的数据分析、人工智能等技术尚未完全成熟,所以对
计算机完成的大数据分析处理的结果,无法要求其完全准确。例如,谷歌通过分析亿万用户搜索内容能够比专业机构更快地预测流感暴发,但由于微博上无用信息的
干扰,这种预测也曾多次出现不准确的情况。
2)必须清楚定位的是,大数据作用与价值的重点在于能够引导和启发大数据应用者的创新思维,辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。
所以,客观认识和发挥大数据的作用,不夸大、不缩小,是准确认知和应用大数据的前提。
七:后北京开运联合给您总结一下
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
1、从大数据的价值链条来分析,存在三种模式:
1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
2、未来在大数据领域具有价值的是两种事物:
1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;
2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
大数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不
断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于
数据的应用需求和应用水平进入新的阶段。
二、数据采集系统
我国目前中小容量机组(200 MW及以下)在火电厂中占相当大的比例,这些机组的监控模式为模拟控制系统加以常规仪表为主的数据采集系统。这种监控模式存在着检修维护工作量大、没有可靠的历史记录等缺点。而且常规模拟仪表也进入老化淘汰期,设备可靠性明显降低,某些仪表的备品备件也得不到保障,因此中小型机组监控系统的技术改造工作已势在必行。结合我国国情,借鉴国内类似系统的研制经验,开发出一套经济实用的FDC-Ⅱ型分布式发电厂运行实时数据监测系统,既可用于中小机组技术改造,又可应用于变电站、供电局等电力生产、管理部门。该系统目前已在山东省某150 MW火力发电厂投入实际运行。
1系统功能与特点
1.1功能简介
目前我国国产机组热控装置的质量和主辅机的可控性不尽人意,设计、安装、调试、运行水平等都存在一些问题,针对这一现状设计了FDC-Ⅱ型分布式发电厂运行实时数据监测系统。它是只有监视功能而没有控制功能的计算机监视系统,即数据采集系统——DAS〔1〕。
该系统可以采集的发电厂运行数据包括电气参数和非电气参数两类。其中电气参数主要有电流、电压、功率、频率等模拟量,断路器状态、隔离开关位置、继电保护动作信号等开关量以及表示电度的脉冲量等。而非电气参数种类较多,既可以是采集火力发电厂运行中的各种温度、压力、流量等热工信号,也可有水电厂中的水位、流速、流量等水工信号,还可以采集诸如绝缘介质状态、气象环境等其它信号。
该系统还包括用Visual C++开发的后台处理软件,主要有数据处理、数据库管理、实时监视、异常处理、统计计算及报表、性能分析及运行指导等功能。
1.2主要特点
该系统具有如下特点:
a.数据采集通用性较强。不仅可采集电气量,亦可采集非电气量。电气参数采集用交流离散采样,非电气参数采集采用继电器巡测,信号处理由高精度隔离运算放大器AD202JY调理,线性度好,精度高。
b.整个系统采用分布式结构,软、硬件均采用了模块化设计。数据采集部分采用自行开发的带光隔离的RS-485网,通信效率高,安全性好,结构简单。后台系统可根据实际被监控系统规模大小及要求,构成485网、Novell网及Windows NT网等分布式网络。由于软、硬件均为分布式、模块化结构,因而便于系统升级、维护,且根据需要组成不同的系统。
c.数据处理在Windows NT平台上采用Visual C++语言编程,处理能力强、速度快、界面友好,可实现网络数据共享。
d.整个系统自行开发,符合我国国情。对发电厂原有系统的改动很小,系统造价较低,比较适合中小型发电厂技术改造需要。
2系统结构概述
系统采用全分布式结构,模块化的软、硬件设计,RS-485光隔离通信网络。系统的结构如图1所示。采集模块完成热工量、开关量、脉冲量及电流、电压和有功、无功功率的采集处理。主通信控制器负责管理网上数据通信,通信转换器则完成RS-485与RS-232的电平转换,将采集的实时数据送到微机室、主控室、厂长室等各处的PC机中,以丰富友好的人机界面显示全面的运行信息。
图1系统结构简图
2.1硬件设计
硬件电路是数据采集和处理的基础。首先为该系统设计开发了一套实用的电路板。它们以Intel 80C196和Intel 80C198 CPU为基础,配合数据采集、通信控制、人机联系等电路,形成了一套比较完整实用的硬件电路系统。各电路板的尺寸与目前国内流行的STD总线板完全一致,采用我们自己定义的背部56总线连接板将若干块电路板连接在一起,构成数据采集工作站,完成数据的采集和通信工作。该系统的电路板主要有以下几种类型。
2.1.1 80C196主CPU板
a. Intel 80C196 16位微控制器及相连的程序存储器27256、数据存储器62256;
b. 1块512字节电可改写的串行E2PROM 93C66,用于存储系统定值、运行参数以及诸如电度量等累计量;
c. 2个并行口及其辅助逻辑电路,用于与外部其它电路板相连接;
d. 1个光电隔离的RS-485或RS-232接口,用于构成分布式通信网络或串行通信。
2.1.2 80C198交流采样数据采集板
a. Intel 80C198准16位微控制器及相连的程序存储器27256、数据存储器62256。
b. 512字节的串行E2PROM 93C66。
c.交流采样电路,由3块多路切换开关13508和1块模数转换器AD574组成。通过交流采样的方式,采集16路电气参数,省却了电量变送器等辅助设备。由于采用了12位A/D转换器AD574,系统的数据采集精度得到了较大程度的提高。
d.测频电路,用于测量工频周期。
其功能主要是与主CPU板相配合,完成交流离散采样电气参数的数据采集。该板上有自己的CPU(Intel 80C198),进行交流离散采样采集数据时将大大减轻主CPU的工作负担,并能够完成一些较为复杂的数据处理工作。
2.1.3遥信、脉冲量采集板
可采集16路遥信信号或16路脉冲信号,各路信号均采用光电隔离技术,以保证系统的安全和可靠性。每一块CPU板可以支持4块遥信量、脉冲量采集板,这样一个采集结点,多可以采集64路遥信量或者脉冲量。该电路板主要用于对开关位置状态信号、继电保护动作信号的遥信量和各种脉冲量的数据采集。
对遥信量的采集可用两种方式实现。查询方式可以简化采集软件的设计;中断方式则能够保证遥信变位时的快速响应,以提高对紧急**的处理能力和**顺序记录的分辨率。
2.1.4热工量信号采集板
通过继电器巡测的方法,采集16路热工信号,可用于热电偶输出的毫伏级信号、毫安级的小电流信号和热电阻输出的电阻信号的数据采集。
使用继电器巡测的目的是隔离,在继电器没有闭合时,整个采集系统与热工测量元件之间是隔离的,即使是在继电器闭合期间,各路采集信号之间也是相互隔离的。这既保证了系统的安全可靠,又不至由于采集系统的投入而影响原有的测量仪表的测量精度。考虑到热工信号共同的特点是变化相对较慢,所以采用继电器巡测。经过反复实验证明,每一路信号的采集时间小控制在10 ms,就能保证信号采集正确,完全能够满足热工量采集的时间要求。
在该电路板上,设有一块高精度线性隔离运算放大器AD202,用于信号调理放大。这种运算放大器大非线性度仅为±0.025%,这就为高精度数据采集测量提供了可能;具有较高的共模抑制比,在放大倍数为100时,其共模抑制比可达130 dB,抗共模干扰能力较强;具有隔离作用,其内部有专门的振荡电路(振荡波频率为25 kHz),将输入端测量信号用振幅调制的方法,经变压器隔离耦合到输出端,从而实现隔离放大的目的,其输入和输出之间的隔离电压可以达到峰—峰值±2 000 V,完全可以满足一般电力系统数据采集隔离放大的需要。对于热工信号的数据采集和处理,它是较为理想的隔离运算放大器。
2.2软件设计
若数据采集的工作对硬件设计有较高的要求,则数据处理主要依赖于软件。我们为电力系统数据采集与处理系统开发的系统软件分为两大部分:实时监控软件和后台数据处理软件。这里主要介绍实时监控软件的设计。
软件采用Intel 80C196的汇编语言编写。由于系统需要采集的电气量和热工量的数目很多,如何保证系统的实时性则显得至关重要。对电气参数的采集采用了交流离散采样技术,该技术现在已经发展得比较成熟,实时性比较容易保证;而对热工量采集,由于采用了继电器作为隔离和多路选择器件,其动作速度相对于电子电路来说则比较慢,因此更需要重视数据测量的实时性。为此设计了实时多任务*作系统,同时在通信方面作了精心设计,有效地提高了系统的实时性。
对于CPU所要完成的各种不同任务,根据其重要性和执行特点,赋予了不同的优先级,原则上是优先级越高的任务被执行的频率越高。例如,对遥信量扫查采集任务每隔10 ms执行一次,而对LED显示刷新任务则每隔500 ms执行一次。这样既可以保证紧急任务的随时执行,又不至于使CPU过多地忙于处理一些非紧急任务而影响系统的实时性。具体的做法是通过设置一个任务标志字,规定其16位分别对应着16个用户任务,如果需要执行某个任务,则置对应的任务标志位为1,反之则清0。通过80C196的软件定时中断程序,定时地为各种任务设置执行标志,*作系统就可以确定在任意时刻需要执行的任务。然后,设计一个任务扫查程序,它循环地检查任务标志字中的每一位,以确定是否需要执行对应的任务,从而保证对于各个任务的及时处理.
三、大数据的定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据**,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在**到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
小的基本单位是**t,按顺序给出所有单位:**t、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte=8 **t
1 KB= 1,024 Bytes= 8192 **t
1 MB= 1,024 KB= 1,048,576 Bytes
1 GB= 1,024 MB= 1,048,576 KB
1 TB= 1,024 GB= 1,048,576 MB
1 PB= 1,024 TB= 1,048,576 GB
1 EB= 1,024 PB= 1,048,576 TB
1 ZB= 1,024 EB= 1,048,576 PB
1 YB= 1,024 ZB= 1,048,576 EB
1 BB= 1,024 YB= 1,048,576 ZB
1 NB= 1,024 BB= 1,048,576 YB
1 DB= 1,024 NB= 1,048,576 BB
全称:
1 Bit(比特)=Binary Digit
8Bits= 1 Byte(字节)
1,000 Bytes= 1 Kilobyte
1,000Kilobytes= 1 Megabyte
1,000 Megabytes= 1 Gigabyte
1,000 Gigabytes= 1Terabyte
1,000 Terabytes= 1 Petabyte
1,000 Petabytes= 1 Exabyte
1,000Exabytes= 1 Zettabyte
1,000 Zettabytes= 1 Yottabyte
1,000 Yottabytes= 1Brontobyte
1,000 Brontobytes= 1 Geopbyte