CNET科技资讯网 5月25日 北京消息(文/齐丰润): 随着信息技术的发展,如今,信息爆炸已成为常态,对于所有企业来说,数据的管理和维护都已经成为了一项十分重要且关系到企业健康发展的工作。近日,Veritas发布了《数据冰山报告》,根据报告显示,当前全球企业存储的数据中,52%的数据为价值尚不明确的暗数据,33%的数据属于对企业没有价值的冗余、过期或不重要的陈旧数据。每年,企业都会在数据管理上投入大量的财力和精力,而这85%的数据对这些投入都造成了极大的浪费。
同时,报告还指出对于那些拥有1,000TB数据的普通中型企业来讲,企业每年存储非关键业务数据的成本将超过400万元人民币。
据悉,Veritas发布的全球《数据冰山报告》基于对22个国家、地区中的2500多名IT专业人士进行调研而成。在此之前,Veritas就在之前发布的《数据基因指数》报告中指出,40%以上的企业存储数据在三年内未曾修改,属于“过期”数据。本次发布的《数据冰山报告》也证实,企业IT领导层已经认识到数据囤积的问题。这两份业内领先的调研报告从员工角度和文件系统现状出发,希望能够同时帮助企业应对当前严峻的数据增长态势,促使他们采取行动。
报告中提及,全球约52%的企业存储数据为暗数据(Dark Data)或陈旧数据 (ROT Data)。中国位居世界第10名,暗数据比例为54.5%,比全球平均水平高2.5%。在纯净数据和已标记为关键业务数据方面,与15%的全球平均水平相比,排名前三的国家分别为中国 (25%)、以色列 (24%) 以及巴西 (22%)。由此可以看出,超过75%的中国企业数据为暗数据或对业务而言毫无价值的陈旧数据。
细分原因,造成大量暗数据与陈旧数据出现的原因除了数据的量级越来越大之外,数据囤积文化以及员工对待数据冷漠的态度也成为了十分重要的原因。
在全球企业中,平均有26.5%的员工会在工作设备中存储个人数据。从员工遵从企业数据策略方面看,中国排名居中,员工在工作设备上存储个人数据的比例为26%。由于企业中存储的大部分数据是暗数据,IT人员无法分辨出哪些数据拥有业务价值。
在中国,员工将企业网络用于个人的情况越发普遍,这导致企业存储资源中,个人法律和ID文档比率占68%、照片文件占64%,而未经批准的软件则占32%。虽然这些内容看上去无关紧要,但部分文件也许会触犯数据隐私或造成潜在版权隐患。
Veritas公司大中华区总裁萧建生表示:“企业解决‘数据冰山’现状的首要举措是去认识并了解所存在的数据囤积文化。当下,中国企业迫切需要掌控他们的‘数据冰山’,并发现数据中的业务价值和风险。企业应该根据数据保留策略对数据进行分类,目前,中国仅有19%的企业采用基于数据保留策略进行数据分类这样的举措。我们可以看到,企业对实施有效的暗数据信息治理的需求呈现出上升的态势。”
随着云服务产品的兴起,许多企业都选择将自己的数据向云上迁移,而这也加剧了“数据冰山”现象的产生。2016年,云服务和云技术的利用率将从33%增长至46%,Veritas预计到2016年底,中国将有约47%的数据迁移至云。Veritas认为,数据的云迁移只是将问题越推越远,为企业增加更多未经分类的暗数据。
而针对这些潜在的威胁,企业们应当如何做好对策和防范也成为了一个相当重要的课题。首先是观念上的改变,并不是越多的数据就会带来越多的价值,通过技术手段发现并整理暗数据以及陈旧数据才会为企业保持健康,创造更多价值。
除此之外,制定最适合企业自身的数据规范,有公司高层制定可行的信息策略,也是消除数据冰山现象的可行之路。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。