本文来源:机器之心
这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。。。。。。。
与人类的互动:视觉参考提示
在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话。第 5.1 节显示,GPT-4V 可以很好地理解直接画在图像上的视觉指针。基于这一观察结果,研究者提出了一种名为「视觉参考提示(visual referring prompting)」的新型模型交互方法。如图 50 所示,其核心思想是直接编辑图像像素空间,绘制视觉指针或场景文本,作为人类的参照指示。作者在第 5.2 节详细介绍了这种方法的用途和优势。
最后,他们在第 5.3 节探讨了如何让 GPT-4V 生成视觉指针输出,以便与人类互动。这些视觉指针对于人类和机器来说都能直观地生成和理解,是人机交互的良好渠道。
时间和视频理解
在第六章,作者讨论了GPT4V 的时间和视频理解能力。尽管 GPT4V 主要
以图像作为输入,但评估其对时间序列和视频内容的理解能力仍然是对其整体评估的一个重要方面。这是因为现实世界中的事件会随着时间的推移而展开,而人工智能系统理解这些动态过程的能力在现实世界的应用中至关重要。时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测未来事件发生和分析随时间变化的活动的能力。
尽管 GPT-4V 以图像为中心,但它能够以类似人类理解的方式理解视频和时间序列。为了提高像 GPT-4V 这样复杂的人工智能模型的通用性和适用性,这方面的测试对其发展和完善至关重要。
在这一章的实验中,研究者使用了多个选定的视频帧作为输入,以测试模型在理解时间序列和视频内容方面的能力。
多图像序列
视觉推理与智商测试 对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。论文第七章测试了GPT-4V是否可以从视觉信号中抽象语义,并可以执行不同类型的人类智商(IQ)测试。 抽象视觉刺激
待续。。。。。。。。
每周五下午5:00-7:00直播: 报名链接: https://us02web.zoom.us/.../571.../WN_cuCx2zB0SgWwkcwLK1HIvA
2023股市面临巨大风险,关注“一级市场”投资机会
我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员
加入方式: 1, 微信: Vandave
2, WhatsApp: 604-7227628
3, 视频号: 时空“资升堂”联系在线客服
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
文章内容不代表本网站场,对文章内容概不负责。 如有争议,请随时联系我们!
免责声明
文章内容不代表本网站立场。 如有争议,请随时联系我们!
Comments