Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

(已开源):

https://

Face Demo:

清明上河图demo

近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于 , BLIP-2 和实现, 通过视觉控制(鼠标点击)获取特定区域的, 并以多样化的语言风格描述出来.

传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且交互特别复杂的图像, 一个简单的句子或非常长的段落, 对用户阅读很不友好. 想看哪里即点击哪里, 根据用户需求定制化地关注局部区域, 进行细节描述及后续推理任务. 同时具有速度优势.

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, 提供了视觉控制和语言控制.

图像描述_基于Segment Anything的图像局部描述_交互式图像描述工具

支持视觉控制和语言控制

用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用输出物体对应的wiki知识, 同时支持进行对话. 代码同时支持Linux和平台.

交互式图像描述工具_基于Segment Anything的图像局部描述_图像描述

用户界面

(已开源):

https://

绘图神器下载

后台回复:绘图神器,即可下载绘制神经网络结构的神器!


PyTorch 学习资料下载


后台回复:PyTorch资料,即可下载访问最全的PyTorch入门和实战资料!


推荐下载


82页《现代C++教程》:高速上手C++ 11/14/17/20(附中文PDF下载)

豆瓣评分9.4!《统计学习导论》现在有了Python版(附PDF和代码下载)

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

基于Segment Anything的图像局部描述_交互式图像描述工具_图像描述

扫码进群

© 版权声明

相关文章

暂无评论

none
暂无评论...