活动学习路径展示排行榜

通过构建真实项目学习 AI。从入门到专家，一次一个挑战。

平台

挑战
学习路径
展示

社区

GitHub
项目

法律

隐私政策
服务条款

© 2026 AI In Action. 保留所有权利。

多模态 AI 应用 | AI In Action

挑战多模态 AI 应用

官方高级AI 智能体与自动化

10-15 hours

多模态 AI 应用

构建一个处理多种输入类型的应用：文本、图片、音频和文档。执行跨模态任务，如描述图片、转录音频以及回答关于文档内容的问题。

0 个赞0 次 Fork0 条评论

audiomulti-modalvisiondocuments

目标

接受文本、图片、音频和文档输入
描述和分析上传的图片
转录和摘要音频文件
回答关于文档内容的问题
在单次查询中结合多种模态

提示

使用 GPT-4 Vision 进行图像理解
使用 Whisper API 进行音频转录
为每种模态类型提供合适的界面展示

资源

platform.openai.com/docs/guides/vision

评论 (0)

后发表评论。

暂无评论。成为第一个评论的人！