视频内容语义智能提取技术,大数据,大数据机器学习,CIO之家

视频内容语义智能提取技术

呢喃　　知乎　　机器学习　　编辑:Corrine 　　图片来源:网络

最开始调研的时候，只是想看看业内最先进的方式是什么。但是看下来发现，每一种都只能覆盖一个类目的视频的需求，比如第一种，更适合电视剧或者综艺，如果碰到动漫，就几乎没有作用了。

视频的内容语义提取的技术，整理有以下几种：

1. 提取视频中的商品

应用场景：比如下面的视频，发现视频中正在展示有电视、帽子、相框，那么就可以推送电视、帽子、相框相关的广告。

实现方式：首先人工标注，然后深度学习。

首先看一个人工标注的案例：

来源：特写｜人工智能背后的人 - 知乎专栏

深度学习的结果可以看谷歌现在开源的：搜google video intelligence，可能要翻墙。

谷歌基本上把视频中的物体都可以识别出来，已经非常智能。

适用视频类型：有人物和物品的，有品牌的；

适用场景：电商类，商品类广告；

优势：智能。我们现在看电视剧时，会发现电视剧已经用人工做了这事了，比如三生三世的夜华的长发一垂下来，立刻就推出了洗发水的广告。随着热巴火，贴片广告就放成了热巴代言的品牌。

但是，当面对数万的视频，特别是短视频市场还在快速增长时，就需要机器来完成。

劣势：

比较容易识别出名词来，动词比较难；比如能够识别出“篮球”，但是不能识别“打篮球”。（深度学习可以做到，但是谷歌这个开源没有）

能够识别，但不能判断，比如图片质量的好坏，等。

2. 对视频内容的语义进行关键词提取；

1) 对视频的帧截图：

l 有的是截每一帧；

l 有的是镜头转换时再截，如何判断视频的镜头是否转换呢?计算前后两个图片的差距，差的很多，说明镜头换了，需要再截图。

2) 对截图进行语义识别；

3) 将视频的语音转换成文字；

4) 对文字进行语义识别

5) 将上述截图得到的语义和文字得到的语义综合在一起，就是这个视频的语义；

技术的原话是，“视频内容ffmpeg到声音，语音识别变字幕，nlp处理字幕得到词向量和文档相似度。”，上面是我自己看了一些资料理解的。

优势：比如教育类，视频上的文字内容非常多。

劣势：其他类型的视频文字可能就没这么多了，不足以拆解出语义来。

3. 对标题进行关键词提取；

这种属于对纯文本的提取。词本身的重要程序、词所在的位置，标题比内容重要，前面比后面重要，词频，词的整体出现顺序，综合起来。

优势：计算简单，业内对文本的处理非常成熟，各种算法开源包都很方便。确实能提取出内容来，比如下图是秒拍的转发量前50的短视频的标题，可以看到基本都能覆盖视频的主要内容；

劣势：

标题党问题；

还有一些确实是标题无法分辨具体内容；比如说，有一个视频的标题叫：耳朵怀孕了。视频：一个人唱歌。机器可以识别有个人在唱歌，从开始唱到结束。但是机器不理解为什么标题叫耳朵怀孕了。

4. 对内容人工打标签；

分两块：

l 上述第一种处理方式的人工部分。那篇文章写得也很清楚，我就不多写了。

l 人工编目。这个可以看看豆瓣和视频网站怎么做的，就是比它们界面上显示的标签更细一两层。

l 一些人工打上标签后机器也不能自己学习的，或者学习起来比较吃力，比如场景，还是要靠人工打。

5. 总结

所以在使用的时候，对每一种类目，都深入分析其视频类型，确定哪一种语义提取方式为主，并且多种方式混合的规则是什么。

要从应用场景往回推，才能推出这一类视频需要哪一种语义提取的方式。

本文作者:呢喃来源:知乎
CIO之家 www.ciozj.com 微信公众号:imciow

大数据

大数据机器学习

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

延伸阅读

也许感兴趣的

.大数据安全体系介绍之技术体系篇

.大数据开发流程及规范

.大数据技术名词解释

.大数据常见问题之数据倾斜

.详解大数据批流处理中的两大架构

.什么是大数据战略以及如何构建

.大数据的数据治理与应用场景

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.需求管理完整指南

.研发中心管理制度

.知乎用户画像与实时数据架构实践

.数据仓库各层该如何设计数据模型

.职场中最重要的五个能力是什么？

.一个企业为什么要数字化转型？

.一位优秀管理者每天应该做什么事？

.企业如何防备勒索病毒的攻击？

你的公司可以被机器学习改造吗

视频内容语义智能提取技术

作者其它的文章

.数据产品经理的进阶之路

.视频内容语义智能提取技术

收藏至微信