Android 机器学习组件-图像标签初探

前言

学习和了解使用 Android 官方提供的机器学习相关组件,给图片打标签,进行图片内容的识别。

以机器学习或者说深度学习为理念,通过神经网络训练的模型,可以变得像人一样具有智慧。可以用于处理各种学习任务,如语音识别、图像识别、自然语言处理等。Android 官方提供了很多机器学习的组件可以使用,比如文字识别、人脸检测、姿势检测、图像标签、对象检测和跟踪等功能的组件。下面通过图片标签这个组件了解一下使用官方提供的机器学习组件可以做什么。

图像标签

图像标签说白了就是检测和提取图片中各种类别的实体的相关信息。默认的图片标签模型可以识别一般对象、地点、活动、动物物种、商品等。

读取图像标签

使用基础模型

Android 官方提供的 com.google.mlkit:image-labeling 组件可以读取图像标签。

  • 官方提供的机器学习组件,可以和模型绑定使用,需要把模型打包到 apk 中,也可以和 Google Play 服务绑定使用,模型首次使用时会自动下载;相对来说比较灵活和方便。
  • image-labeling 组件可以通过相机、图片文件 URL、图片内存信息的方式读取图片信息。

com.google.mlkit:image-labeling 的组件集成比较简单,可以直接参考 图片标签 文档。

下面通过核心代码了解一下 image-labeling 组件的实际效果。

kotlin 复制代码
    fun getLabel(context: Context, uri: Uri) {
        val labeler = ImageLabeling.getClient(ImageLabelerOptions.DEFAULT_OPTIONS)
        val image: InputImage
        try {
            image = InputImage.fromFilePath(context, uri)
            labeler?.process(image)?.addOnSuccessListener { labels ->
                for (label in labels) {
                    val text = label.text
                    val confidence = label.confidence
                    val index = label.index
                    Log.i(TAG, "text=$text,confidence=$confidence,index=$index ,uri=$uri")
                }

            }?.addOnFailureListener { e ->
               
                Log.e(TAG, e.stackTraceToString())
            }

        } catch (e: Exception) {
            e.printStackTrace()
        }
    }

我们通过图片 URI 创建 InputImage 对象,通过调用 ImageLabeling 的 process 方法异步获取图片标签信息。比如以下面这张元宵节灯笼的图片为例

可以看一下输出

shell 复制代码
11:31:12.839 ImageLabelHelper         I  text=Crowd     ,confidence=0.968574  ,index=218 ,uri=content://media/external/images/media/101508
11:31:12.839 ImageLabelHelper         I  text=Product   ,confidence=0.943360  ,index=78  ,uri=content://media/external/images/media/101508
11:31:12.840 ImageLabelHelper         I  text=Stadium   ,confidence=0.893257  ,index=43  ,uri=content://media/external/images/media/101508
11:31:12.840 ImageLabelHelper         I  text=Event     ,confidence=0.803580  ,index=319 ,uri=content://media/external/images/media/101508
11:31:12.840 ImageLabelHelper         I  text=Fun       ,confidence=0.631223  ,index=386 ,uri=content://media/external/images/media/101508
11:31:12.841 ImageLabelHelper         I  text=Leisure   ,confidence=0.612061  ,index=239 ,uri=content://media/external/images/media/101508
11:31:12.841 ImageLabelHelper         I  text=Race      ,confidence=0.511048  ,index=285 ,uri=content://media/external/images/media/101508

可以看到针对这张图片,image-labeling 组件推理出了 Crowd,Product,Stadium,Event,Fun,Leisure,Race 这几个标签。

我们再看一张图片

shell 复制代码
11:32:42.062 ImageLabelHelper         I  text=Event     ,confidence=0.742820  ,index=319 ,uri=content://media/external/images/media/101507
11:32:42.063 ImageLabelHelper         I  text=Team      ,confidence=0.716490  ,index=0   ,uri=content://media/external/images/media/101507
11:32:42.063 ImageLabelHelper         I  text=Leisure   ,confidence=0.674395  ,index=239 ,uri=content://media/external/images/media/101507
11:32:42.064 ImageLabelHelper         I  text=Fun       ,confidence=0.612567  ,index=386 ,uri=content://media/external/images/media/101507
11:32:42.064 ImageLabelHelper         I  text=Sports    ,confidence=0.538094  ,index=292 ,uri=content://media/external/images/media/101507

image-labeling 组件从这张图片推理出了 Event,Team,Leisure,Fun,Sports 这几个标签。

最后再看一张日常拍摄的照片

shell 复制代码
11:36:01.222 ImageLabelHelper         I  text=Infrastructure,confidence=0.919282  ,index=31  ,uri=content://media/external/images/media/3719
11:36:01.222 ImageLabelHelper         I  text=Vehicle   ,confidence=0.904313  ,index=316 ,uri=content://media/external/images/media/3719
11:36:01.223 ImageLabelHelper         I  text=Road      ,confidence=0.841021  ,index=287 ,uri=content://media/external/images/media/3719
11:36:01.223 ImageLabelHelper         I  text=Asphalt   ,confidence=0.781312  ,index=411 ,uri=content://media/external/images/media/3719
11:36:01.224 ImageLabelHelper         I  text=Car       ,confidence=0.762895  ,index=423 ,uri=content://media/external/images/media/3719
11:36:01.224 ImageLabelHelper         I  text=Plant     ,confidence=0.711713  ,index=266 ,uri=content://media/external/images/media/3719
11:36:01.224 ImageLabelHelper         I  text=Building  ,confidence=0.646049  ,index=366 ,uri=content://media/external/images/media/3719
11:36:01.225 ImageLabelHelper         I  text=Wheel     ,confidence=0.598548  ,index=322 ,uri=content://media/external/images/media/3719
11:36:01.225 ImageLabelHelper         I  text=Van       ,confidence=0.551206  ,index=404 ,uri=content://media/external/images/media/3719

这张图片输出的标签还挺多。

日志中输出的信息还是很好理解的,

  • text 就是图片中包含标签的文本描述,从这里的英文表述可以看到识别还是很准确的。
  • confidence 从 image-labeling 组件的角度出发就是对这个描述的信心,对使用者来说就是可信度,概率值,可以看到标签是按可信度的降序排列。如果你自己曾经做过模型训练的话,应该对 confidence 这个词不陌生。
  • index 这个 index 可以理解为标签索引,现实生活中同一个具体的物品在不同环境会有不同的表达,模型不可能基于不同的语言输出不同的文本描述,而是选择了输出标签索引,基于这个索引,我们可以去映射具体的含义。

标签映射

图片标签 API 提供的默认模型支持 400 多个不同的标签,比如对于上面出现的标签索引

标签索引 标签内容
0 团队
43 体育馆
239 休闲
287 道路
404 厢式车

通过这个标签索引,我们就可以获取图片中的标签信息了。

完整的标签索引列表可以参考官方提供的 标签索引

上述相关完整代码可以参考 Matisse

小结

Android 官方提供的机器学习组件,主要是视觉和自然语言两大类。视觉相关的组件除了图片标签还有文字识别、人脸检测、姿势检测。自然语言相关的组件包括语言识别、翻译、智能回复等组件。通过这些组件可以在移动设备(除了 Android、iOS 也有相应的版本)基于这些能力做一些相关的事情。

参考文档

相关推荐
刀客1231 小时前
python3+TensorFlow 2.x(四)反向传播
人工智能·python·tensorflow
SpikeKing1 小时前
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
人工智能·llm·预训练·scalinglaws·100b·deepnorm·egs
时间很奇妙!1 小时前
decison tree 决策树
算法·决策树·机器学习
小枫@码1 小时前
免费GPU算力,不花钱部署DeepSeek-R1
人工智能·语言模型
liruiqiang051 小时前
机器学习 - 初学者需要弄懂的一些线性代数的概念
人工智能·线性代数·机器学习·线性回归
Icomi_1 小时前
【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性,初识向量以及向量加法
c语言·c++·人工智能·深度学习·神经网络·机器学习·计算机视觉
微学AI1 小时前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
西猫雷婶1 小时前
python学opencv|读取图像(四十六)使用cv2.bitwise_or()函数实现图像按位或运算
人工智能·opencv·计算机视觉
IT古董1 小时前
【深度学习】常见模型-生成对抗网络(Generative Adversarial Network, GAN)
人工智能·深度学习·生成对抗网络
Jackilina_Stone1 小时前
【论文阅读笔记】“万字”关于深度学习的图像和视频阴影检测、去除和生成的综述笔记 | 2024.9.3
论文阅读·人工智能·笔记·深度学习·ai