当前位置：首页 > news >正文

模型案例：| 手机识别模型！

news 文章来源：https://blog.csdn.net/x_factory/article/details/144270950 2025/4/30 9:39:18

导读

2023年以ChatGPT为代表的大语言模型横空出世，它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力，为人工智能技术的发展开辟了新的可能性。同时，人工智能技术正在进入各种应用领域，在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。

柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件，与全球创客爱好者共建“模型仓”，通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术！

本期介绍：模型案例：| 手机识别模型

RT-DETR

RT-DETR是基于DETR架构的端到端对象检测器，完全消除了对NMS的需求。通过这样做，RT-DETR显着减少了之前基于卷积神经网络（CNN）的对象检测器（如YOLO系列）的延迟。它结合了强大的主干、混合编码器和独特的查询选择器，可以快速准确地处理特征。

RT-DETR架构的关键组件

Backbone网络：通常采用高效的卷积神经网络（CNN）作为特征提取的基础，例如ResNet或EfficientNet，以获取图像的多尺度特征。从主干，RT-DETR提取三个级别的特征- S3，S4和S5，这些多尺度特征有助于模型理解图像的高级和细粒度细节。

Transformer编码器-解码器：RT-DETR中使用了Transformer的编码器-解码器结构，该混合编码器包括两个主要部分：基于注意力的尺度内特征交互（AIFI）和跨尺度特征融合（CCFF）。

基于注意力的尺度内特征交互（AIFI）

这个组件的核心思想是利用自注意力机制在同一尺度内进行特征交互。AIFI能够让模型有效地捕捉同一尺度特征图中各个位置之间的关系。

具体而言，AIFI通过计算特征的注意力权重，使得模型能够关注到重要的区域，并抑制冗余信息，从而增强对目标的定位和表征能力。

这种尺度内的交互有助于在相似尺寸的物体之间建立联系，提高对密集目标的检测能力。

跨尺度特征融合（CCFF）

CCFF负责整合来自不同尺度的特征，以便于模型能够从多层次的信息中获得更全面的上下文。这一过程通常涉及将来自不同尺度的特征图进行融合，通过卷积操作、上采样或下采样等方式，将这些特征进行对齐并结合在一起。

CCFF不仅允许模型综合不同尺度特征的优势，还能提高对各种大小目标的检测能力。

多尺度特征金字塔：RT-DETR通常会借助特征金字塔网络（FPN）来融合来自不同层次的特征，以加强对不同大小目标的检测能力。

目标查询（Object Queries）：解码器使用的目标查询是关键组件，它们用于引导模型对目标的检测，允许模型在生成检测结果时关注不同的潜在目标。

类别和边界框回归：在解码器中，RT-DETR通过类别预测和边界框回归来输出目标的类别和位置。

高效的训练策略：RT-DETR往往结合了一些改进的训练策略，如动态图损失（Dynamic Loss）和图像增强技术，以提高模型的收敛速度和检测精度。

后处理：如NMS（非极大值抑制）处理步骤，以去除冗余的检测框和优化最终的检测结果。

手机识别模型

该 AI 模型由 Swift yolo 算法生成，专为 Seeed Studio Grove Vision AI （V2）设备设计，能够高效识别和检测到手机。

应用场景

该模型适用于多种应用场景，包括零售、安全、公共空间监控和个人监督。

在零售业，该模型可以实时监控手机库存，帮助员工及时补货；

在安全方面，它可以帮助识别和跟踪丢失或被盗的手机；

在个人监督，很多大学学生上课玩手机，可以通过此模型进行监控。

在Grove - Vision AI V2模块上部署此模型

打开SenseCraft AI平台，如果第一次使用请先注册一个会员账号，还可以设置语言为中文。

平台地址：https://sensecraft.seeed.cc/ai/#/model

2、在顶部单击【预训练模型】菜单，在公共AI模型列表中找到【手机检测】模型，单击此模型图片，如下图所示。

3、进入【手机检测】模型介绍页面，单击右侧的“部署模型”按钮，如下图所示。

进入部署手机检测模型页面，按提示步骤先连接摄像头，再连接设备到电脑USB接口上，最后单击【连接设备】按钮，如下图所示。

5、弹出部署模型窗口，单击“确定”按钮，如下图所示。

6、弹出连接到串行端口窗口，选择端口号后单击“连接”按钮，如下图所示。

7、开始进行模型部署、固件下载、设备重启等过程，完成后在预览中即可看到当前摄像头视频内容，将摄像头对准手机图片查看预测效果，如下图所示。

原型设计

利用此手机识别模型，设计一个桌面手机监控装置，此装置在检测到有人用手机时会点亮led模块，也可改为蜂鸣器模块进行报警，这样就有了一个防沉迷手机检测装置。

下面是视频演示

手机识别模型

Grove Al视觉模块 V2套装介绍

Grove Al视觉模块 V2

OV5647-62摄像头

Grove - Vision Al Module V2是一款拇指大小的人工智能视觉模块, 配备Himax WiseEye2 HX6538处理器, 该处理器采用 ArmCortex-M55双核架构。

它具有标准的CSI接口, 并与树莓派相机兼容。它有一个内置的数字麦克风和SD卡插槽。它非常适用于各种嵌入式视觉项目。

有了SenseCraft Al算法平台, 经过训练的ML模型可以部署到传感器, 而不需要编码。它兼容XIAO系列和Arduino生态系统, 是各种物体检测应用的理想选择。

主要硬件配置

- 板卡基于WiseEye2 HX6538处理器, 采用双核ARM Cortex-M55架构

- 配备集成Arm Ethos-U55微神经网络加速单元, 兼容的树莓派相机

- 板载PDM麦克风, SD卡插槽, Type-C, Grove接口, 丰富的外设支持样机开发

- Seeed Studio XIAO的可扩展性, SenseCraft Al的现成AI模型用于无代码部署。

- 支持各种有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8.

写在最后

SenseCraft-AI平台的模型仓数量还很少，但是好消息是它支持自定义模型上传并输出推理结果，平台会逐渐增加模型仓的数量，敬请关注！

模型案例：| 手机识别模型！

相关文章：

模型案例：| 手机识别模型！

期权懂|个股期权交割操作流程是什么样的？

【openGauss】openGauss execute执行update语句，获取更新的行数

P8780 [蓝桥杯 2022 省 B] 刷题统计

切比雪夫不等式：方差约束下的概率估计

使用CancellationTokenSource来控制长时间sql查询中断

小红薯最新x-s 算法补环境教程12-06更新（下）

wazuh-modules-sca

Uniapp的App环境下使用Map获取缩放比例

微信小程序配置less并使用

“全面支持公路数字化转型升级四大任务”视频孪生解决方案

顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍

P3379 【模板】最近公共祖先（LCA）

2030. gitLab A仓同步到B仓

网易博客旧文-----如何在WINDOWS下载安卓（android）源代码并和eclipse做关联

MATLAB中axes函数用法

构建 Java Web 应用程序：实现简单的增删查改（Mysql）

3d行政区划-中国地图

适合存储时序数据的数据库和存储系统

dolphinscheduler集群服务一键安装启动实现流程剖析

深入了解Linux —— 学会使用vim编辑器

C05S01-Web基础和HTTP协议

MIT工具课第六课任务 Git基础练习题

计算机网络安全

Delphi 实现键盘模拟、锁定键盘，锁定鼠标等操作

RTK数据的采集方法

Next.js 入门学习

2024年认证杯SPSSPRO杯数学建模B题(第一阶段)神经外科手术的定位与导航解题全过程文档及程序

安卓底层相机流的传输方式

【单链表】（更新中...）