
CNET科技资讯网 5月25日 北京消息(文/齐丰润): 随着信息技术的发展,如今,信息爆炸已成为常态,对于所有企业来说,数据的管理和维护都已经成为了一项十分重要且关系到企业健康发展的工作。近日,Veritas发布了《数据冰山报告》,根据报告显示,当前全球企业存储的数据中,52%的数据为价值尚不明确的暗数据,33%的数据属于对企业没有价值的冗余、过期或不重要的陈旧数据。每年,企业都会在数据管理上投入大量的财力和精力,而这85%的数据对这些投入都造成了极大的浪费。
同时,报告还指出对于那些拥有1,000TB数据的普通中型企业来讲,企业每年存储非关键业务数据的成本将超过400万元人民币。
据悉,Veritas发布的全球《数据冰山报告》基于对22个国家、地区中的2500多名IT专业人士进行调研而成。在此之前,Veritas就在之前发布的《数据基因指数》报告中指出,40%以上的企业存储数据在三年内未曾修改,属于“过期”数据。本次发布的《数据冰山报告》也证实,企业IT领导层已经认识到数据囤积的问题。这两份业内领先的调研报告从员工角度和文件系统现状出发,希望能够同时帮助企业应对当前严峻的数据增长态势,促使他们采取行动。
报告中提及,全球约52%的企业存储数据为暗数据(Dark Data)或陈旧数据 (ROT Data)。中国位居世界第10名,暗数据比例为54.5%,比全球平均水平高2.5%。在纯净数据和已标记为关键业务数据方面,与15%的全球平均水平相比,排名前三的国家分别为中国 (25%)、以色列 (24%) 以及巴西 (22%)。由此可以看出,超过75%的中国企业数据为暗数据或对业务而言毫无价值的陈旧数据。
细分原因,造成大量暗数据与陈旧数据出现的原因除了数据的量级越来越大之外,数据囤积文化以及员工对待数据冷漠的态度也成为了十分重要的原因。
在全球企业中,平均有26.5%的员工会在工作设备中存储个人数据。从员工遵从企业数据策略方面看,中国排名居中,员工在工作设备上存储个人数据的比例为26%。由于企业中存储的大部分数据是暗数据,IT人员无法分辨出哪些数据拥有业务价值。
在中国,员工将企业网络用于个人的情况越发普遍,这导致企业存储资源中,个人法律和ID文档比率占68%、照片文件占64%,而未经批准的软件则占32%。虽然这些内容看上去无关紧要,但部分文件也许会触犯数据隐私或造成潜在版权隐患。
Veritas公司大中华区总裁萧建生表示:“企业解决‘数据冰山’现状的首要举措是去认识并了解所存在的数据囤积文化。当下,中国企业迫切需要掌控他们的‘数据冰山’,并发现数据中的业务价值和风险。企业应该根据数据保留策略对数据进行分类,目前,中国仅有19%的企业采用基于数据保留策略进行数据分类这样的举措。我们可以看到,企业对实施有效的暗数据信息治理的需求呈现出上升的态势。”
随着云服务产品的兴起,许多企业都选择将自己的数据向云上迁移,而这也加剧了“数据冰山”现象的产生。2016年,云服务和云技术的利用率将从33%增长至46%,Veritas预计到2016年底,中国将有约47%的数据迁移至云。Veritas认为,数据的云迁移只是将问题越推越远,为企业增加更多未经分类的暗数据。
而针对这些潜在的威胁,企业们应当如何做好对策和防范也成为了一个相当重要的课题。首先是观念上的改变,并不是越多的数据就会带来越多的价值,通过技术手段发现并整理暗数据以及陈旧数据才会为企业保持健康,创造更多价值。
除此之外,制定最适合企业自身的数据规范,有公司高层制定可行的信息策略,也是消除数据冰山现象的可行之路。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。