如何使用Vision和Core ML框架从一系列图像中识别并跟踪图像对象

3
我正在使用新的Core ML框架开发应用程序,我想实现以下目标: 1.选择一张图片并点击其中任何一个对象以绘制矩形 2.之后在多张图像中跟踪该对象,只需运行for循环即可
目前,我正在按照以下流程进行: 1.当用户轻击时检测对象并将其存储为VNDetectedObjectObservation = VNDetectedObjectObservation(boundingBox: convertedRect) 2.创建VNTrackObjectRequest以便对VNImageRequestHandler执行请求
但是我没有得到合适的结果。希望能得到帮助。

请在您的问题中添加更多细节并更加具体化。当您说“没有得到正确的结果”时,您指的是什么?您想要实现什么,为什么不满意?从哪一步开始出错了?如果可能的话,提供一些代码片段会很好。 - Liastre
请查看苹果公司的使用Vision进行跟踪实现。 - user2096064
1个回答

1

我不熟悉coreml和objective c,因此无法提供任何代码示例,但由于没有人给出答案,我想描述一下我手动解决此问题的方式:

  1. 获取点击点并扩展一个感兴趣的区域,例如在该点周围扩展一个 N x N 的正方形。
  2. 对点击区域执行分类,以便算法可以检测连续帧中的结构。
  3. 存储当前帧中的位置,然后扩展该区域以便在以下帧中检测其中的对象。

使用这种策略,您可以使用步骤3中的扩展区域来解决YOLO实现的对象检测任务。但是,与将整个框架放入对象检测相比,它要快得多,因为它仅在小区域上执行检测。

希望这至少对您有所帮助。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接