和其他开发者一样,我深入研究了苹果的新ARKit技术,发现它很好用。但是为了一个特定的项目,我希望能够识别场景中的(真实)图像,以便在其上投射某些东西(就像Vuforia使用其目标图像一样),或者将其用于触发应用程序中的事件。
在我研究如何实现这一点时,我偶然发现了苹果的Vision和CoreML框架。这看起来很有前途,尽管我还没有完全理解它们。
据我所知,我应该能够通过使用Vision框架查找矩形,并将其馈送到一个简单的CoreML模型中,该模型仅将其与我在模型中预定义的目标图像进行比较。然后它应该能够输出它找到了哪个目标图像。
虽然这在我脑海中听起来不错,但我还没有找到完成此操作的方法。我该如何创建这样的模型?这种方式是否可能?