和数据科学。
“自动化对人工智能和机器学习生命周期的影响”这个话题很感兴趣,并与Amini博士集中讨论了AutoAI的下一代功能。
AutoAI自动执行高度复杂的任务,为数据寻找并优化最好的机器学习模型、特征和模型超参数。AutoAI完成了原本需要专业数据科学家团队和其他专业资源才能完成的工作,且速度要快得多。
图:“数据科学家想要多自动化?”(图片来源/IBM)
在模型训练开始之前,必须获取、评估数据,并对其进行预处理,以识别并纠正数据质量问题。
它需要一个训练有素的资源团队,他们要了解数据科学,还要有了解模型目的和输出的主题专家。
理和建模阶段进行无数次优化调整。
管道的高度复杂性使其成为自动化的首要对象。
自动化功能包括数据准备、模型开发、特征工程和超参数优化。
图片来源/IBM
以下是AutoAI的部分功能列表:
自动分析数据,并针对预测建模问题自动生成个性化的模型管道。
、算法和参数设置时迭代创建的。
结果显示在排行榜上,并根据问题优化目标,对自动生成的模型管道进行排名。
从数据准备,到算法选择,再到模型创建,流程的每个阶段都提供可视化。
用户只需单击鼠标,即可轻松部署模型,或为任何管道生成Python notebook。
用于持续模型改进的自动化任务,可以在需要时,将AI模型API集成到应用程序中。
只需点击几下鼠标,即使是只有基本数据科学技能的人,也可以使用自定义数据自动选择、训练并调优高性能机器学习模型。
无需从头开始编写管道代码。
未来的人工智能自动化项目
IBM Research正在开展多个下一代人工智能自动化项目,例如处理新数据类型的下一代算法,实现新的自动化质量和公平性,并显著提高规模和性能。
AutoAI for Decisions和Semantic Data Science。
用于改进决策的AutoAI
数据集的时间维度使分析变得困难并且需要更高级的数据处理。
为训练准备数据集
根据数据类型确定需要哪种模型,例如分类还是回归
将适当的插补转换器置入管道中以处理丢失的数据
通过确定哪些数据列能够最好地支持问题来进行特征选择
测试各种超参数调整选项以获得最佳结果
根据准确性和精确度等因素生成管道并对其排名。
Amini博士解释说,在许多环境中,创建时间序列预测之后,下一步是利用预测来改进决策。
例如,数据科学家可能会建立一个“时间序列预测模型”预测产品需求,但是该模型也可以作为库存补货决策的输入,通过减少成本、高昂的大量库存积压、或者避免由于库存告罄造成的销售损失,实现利润最大化。
在另一些情况下,我们会用被称为“决策优化”的更系统性方法来构建规范性模型,以补充时间序列预测模型。
然而,像AutoAI生成预测模型那样直接根据数据自动化生成决策优化管道的产品,目前还不存在。
多模型管道
这样的产品同样需要资源协作。
深度强化学习自动化
因此,它们需要大量的专业知识和手动工作对它们进行调整,以适应特定的问题和数据集。
它还可以使用高级搜索策略,为模型选择最佳的超参数配置。
该系统支持各种类型的强化学习,包括在线和离线学习以及无模型和基于模型的算法。
自动扩展人工智能
强化学习自动化解决了在企业中扩展人工智能的两个紧迫问题。
首先,它为顺序决策问题提供了自动化,在这类问题中,不确定性可能会削弱启发式甚至是不使用历史数据的正规优化模型。
其次,它为具有挑战性的强化学习模型构建领域带来了一种自动化、系统化的方法。
Semantic Data Science(语义数据科学)
自动化方法目前依靠统计技术来探索特征空间。
例如,如果数据是关于汽车的,则特征空间可能是福特、特斯拉、宝马。
尽管如此,要知道哪些特征和转换是相关的,用户必须具备足够的技术技能来破译和翻译代码和文档。
数据科学家的新语义能力
一旦AutoAI检测到正确的语义概念,程序就会使用这些概念广泛搜索现有代码、数据和文献中可能存在的相关特征和特征工程操作。
AutoAI可以使用这些新的、语义丰富的特征来提高生成模型的准确性,并通过这些生成的特征提供可供人类阅读的解释。
但是,想要理解发现的语义概念,可以使用Semantic Feature Discovery(语义特征发现)可视化资源管理器来探索发现的关系。
用户只需单击Sources超链接,即可直接从可视化资源管理器进入新功能生成的Python代码或文档,如下图所示。
甚至可以在IBM的API Hub上试用其中一些功能。
Amini博士用一句话总结了IBM对AutoAI投入的大量研究工作,并以此结束了我们的谈话:
”
要点总结
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。