AI In Action
挑战
活动
学习路径
展示
排行榜
EN
登录
多模态 AI 应用 | AI In Action
挑战
多模态 AI 应用
官方
高级
AI 智能体与自动化
10-15 hours
多模态 AI 应用
构建一个处理多种输入类型的应用:文本、图片、音频和文档。执行跨模态任务,如描述图片、转录音频以及回答关于文档内容的问题。
0 个赞
0 次 Fork
0 条评论
audio
multi-modal
vision
documents
0
登录以跟踪进度
目标
接受文本、图片、音频和文档输入
描述和分析上传的图片
转录和摘要音频文件
回答关于文档内容的问题
在单次查询中结合多种模态
提示
使用 GPT-4 Vision 进行图像理解
使用 Whisper API 进行音频转录
为每种模态类型提供合适的界面展示
资源
platform.openai.com/docs/guides/vision
评论 (0)
登录
后发表评论。
暂无评论。成为第一个评论的人!
AI 结对编程助手
AI 智能体集群