
CNET科技资讯网 5月25日 北京消息(文/齐丰润): 随着信息技术的发展,如今,信息爆炸已成为常态,对于所有企业来说,数据的管理和维护都已经成为了一项十分重要且关系到企业健康发展的工作。近日,Veritas发布了《数据冰山报告》,根据报告显示,当前全球企业存储的数据中,52%的数据为价值尚不明确的暗数据,33%的数据属于对企业没有价值的冗余、过期或不重要的陈旧数据。每年,企业都会在数据管理上投入大量的财力和精力,而这85%的数据对这些投入都造成了极大的浪费。
同时,报告还指出对于那些拥有1,000TB数据的普通中型企业来讲,企业每年存储非关键业务数据的成本将超过400万元人民币。
据悉,Veritas发布的全球《数据冰山报告》基于对22个国家、地区中的2500多名IT专业人士进行调研而成。在此之前,Veritas就在之前发布的《数据基因指数》报告中指出,40%以上的企业存储数据在三年内未曾修改,属于“过期”数据。本次发布的《数据冰山报告》也证实,企业IT领导层已经认识到数据囤积的问题。这两份业内领先的调研报告从员工角度和文件系统现状出发,希望能够同时帮助企业应对当前严峻的数据增长态势,促使他们采取行动。
报告中提及,全球约52%的企业存储数据为暗数据(Dark Data)或陈旧数据 (ROT Data)。中国位居世界第10名,暗数据比例为54.5%,比全球平均水平高2.5%。在纯净数据和已标记为关键业务数据方面,与15%的全球平均水平相比,排名前三的国家分别为中国 (25%)、以色列 (24%) 以及巴西 (22%)。由此可以看出,超过75%的中国企业数据为暗数据或对业务而言毫无价值的陈旧数据。
细分原因,造成大量暗数据与陈旧数据出现的原因除了数据的量级越来越大之外,数据囤积文化以及员工对待数据冷漠的态度也成为了十分重要的原因。
在全球企业中,平均有26.5%的员工会在工作设备中存储个人数据。从员工遵从企业数据策略方面看,中国排名居中,员工在工作设备上存储个人数据的比例为26%。由于企业中存储的大部分数据是暗数据,IT人员无法分辨出哪些数据拥有业务价值。
在中国,员工将企业网络用于个人的情况越发普遍,这导致企业存储资源中,个人法律和ID文档比率占68%、照片文件占64%,而未经批准的软件则占32%。虽然这些内容看上去无关紧要,但部分文件也许会触犯数据隐私或造成潜在版权隐患。
Veritas公司大中华区总裁萧建生表示:“企业解决‘数据冰山’现状的首要举措是去认识并了解所存在的数据囤积文化。当下,中国企业迫切需要掌控他们的‘数据冰山’,并发现数据中的业务价值和风险。企业应该根据数据保留策略对数据进行分类,目前,中国仅有19%的企业采用基于数据保留策略进行数据分类这样的举措。我们可以看到,企业对实施有效的暗数据信息治理的需求呈现出上升的态势。”
随着云服务产品的兴起,许多企业都选择将自己的数据向云上迁移,而这也加剧了“数据冰山”现象的产生。2016年,云服务和云技术的利用率将从33%增长至46%,Veritas预计到2016年底,中国将有约47%的数据迁移至云。Veritas认为,数据的云迁移只是将问题越推越远,为企业增加更多未经分类的暗数据。
而针对这些潜在的威胁,企业们应当如何做好对策和防范也成为了一个相当重要的课题。首先是观念上的改变,并不是越多的数据就会带来越多的价值,通过技术手段发现并整理暗数据以及陈旧数据才会为企业保持健康,创造更多价值。
除此之外,制定最适合企业自身的数据规范,有公司高层制定可行的信息策略,也是消除数据冰山现象的可行之路。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。