相关搜索
」。 论文很坦诚地写了目前做不到的事。 输入分辨率有限制。ViT 输出被卡在 81 到 384 个视觉信息单元之间,遇到很精细的场景(比如数手指这种),坐标精度还不够。这可能就是前天实测时数手指翻车的直接
当前文章:http://faxy.ceyuqiao.cn/ew4wwg/51ti.html
发布时间:04:52:34