CNET科技资讯网 7月28日 北京消息:今天,阿里巴巴的“NASA大脑”iDST(Institute of Data Science Technology)表示,《Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding》入选2017年国际计算机视觉大会ICCV,即计算机视觉领域的顶级会议之一。
这也是阿里巴巴本月内第三次公布论文入选国际顶级学术会议的好消息。
据了解,这篇论文涉及的是计算机视觉(Vision)和自然语言处理(Language)两个独立领域结合的学术研究,提出了对图像(或图像显著区域)更为细致精确的描述,显示出阿里巴巴在Vision&Language研究方向的持续挖掘。
该论文通过创新的多模态、层次化的递归神经网络(Hierarchical Multimodal LSTM)方法,可以将整个句子、句子中的短语、整幅图像及图像中的显著区域同时嵌入语义空间,并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系,生成包含更多形容词的稠密语义空间,对图像或图像区域进行更详细和生动的描述。
也就是说,计算机以后不仅能说“一只鸟站在树枝上”,还能说出“一只羽翼未丰的小鸟站在春天抽芽的树枝上”、“一只张嘴乞食的小鸟”、“一只小鸟站在抽芽的树枝上,扑腾翅膀学习飞翔”这样更为生动复杂的句子。
论文作者介绍,这一研究将被用于“看图说话(Image Captioning)”任务及其他颇有意义的应用场景。如应用于自动导盲系统,将拍摄的图像转换成文字和语音,以便提示盲人避障。
此外,还能用于“跨模态检索(Cross-media Retrieval)”任务,当用户在电商搜索引擎中输入一段描述性文字如“夏季宽松波西米亚大摆沙滩裙”,系统就能为用户提供最相关的商品。
ICCV全称为IEEE International Conference on Computer Vision,与CVPR(计算机视觉模式识别会议)和ECCV(欧洲计算机视觉会议)并称计算机视觉方向的三大顶级会议。
在本月早些时候,阿里巴巴先后发布三篇论文入选国际多媒体会议ACM MM,四篇论文入选国际计算机视觉与模式识别会议CVPR的消息。
今年3月,阿里巴巴宣布启动NASA计划,要为未来20年研发核心科技。在这一计划的号召下,阿里正在人工智能领域全面发力,在机器学习、视觉识别等领域不断追赶世界顶尖的学术水平。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。