AI 精彩视频剪辑:战术竞技类游戏直播

简介

直播平台每天都会产生海量的游戏直播视频,同时有很多内容作者从直播视频中剪辑精彩片段,进行二次创作。然而精彩视频剪辑工作,需要人工浏览视频并找出精彩片段,用视频编辑软件进行剪辑,耗费大量时间和精力。

为了解决这个问题,我们尝试用 AI 完成精彩视频剪辑的工作,并借助 TGL腾讯游戏玩家创作联盟 实现视频一键多渠道(看点、企鹅号、今日头条)发布。

DEMO:

此外,剪辑视频带有 AI 识别的标签,比如:武器AK、双人排位、沙漠地图、8倍镜、决赛圈、主播名称等,内容作者可以在 TGL 可按标签检索视频,进行二次创作。

目前已经支持 AI 视频剪辑的游戏有:绝地求生端游、刺激战场、全军出击、穿越火线端游和手游。同时我们接入了虎牙直播,实现了直播视频抓取、AI 视频剪辑、到多渠道自动发布。未来可接各种品类的游戏和赛事的直播 AI 视频剪辑需求、内容素材库的需求,有合作意向的同学可以联系我们。

方法

精彩时刻识别

视频精彩时刻识别的方法有很多,有端到端的方法如 Yao [1],以及基于视频截图的方法如 YOLO、CNN、Fast-RCNN 等。

综合考虑准确率、实现复杂度、效率,我们使用 CNN 卷积神经网络识别游戏截图的方法。

对每个截图,我们用多个 CNN 模型识别固定区域的图像,包括武器、排名、击杀提示、组队情况等:

pubg-detect

搞笑场景识别

搞笑场景是一个抽象的概念,这里我们把问题简化成笑声场景识别,即 Audio Event Detection (AED) 问题的简化版本。参考 Hershey [2] 和 Knox [3],使用 MFCC 特征 + CNN 作为笑声场景识别模型。目前该识别模型正在开发中。

游戏视频区域识别

一些主播会以画中画的形式,同时展示游戏视频和主播影像。在这种情况下,需要先识别游戏视频区域的坐标,如下图绿色方框所示,才能够进一步进行精彩时刻的识别。

要完成游戏视频区域识别的任务,可以用机器学习的方法如 CNN 回归模型,也可以用传统视觉算法霍夫曼直线检测。前者的泛化性能好,适用于各种情况,但需要大量的样本;后者基于算法规则,需要对图像进行预处理,不需大量的样本。

综合考虑效率和成本,我们采用视觉算法完成这个任务。简单地说,首先把截图进行膨胀、腐蚀,然后用 Canny 算子的到边缘图片,最后应用霍夫曼直线检测算法得到视频区域。

pubg-banner-detect

剪辑和拼接

给定原始视频和精彩时刻、搞笑时刻,我们制定一些剪辑规则,比如剪辑精彩时刻的前10秒后5秒、剪辑吃鸡时刻的前2分钟,然后调用视频处理工具 ffmpeg 进行剪辑。

###TGL一键多渠道发布

借助 TGL腾讯游戏玩家创作联盟,由 AI 剪辑视频后,可以实现视频的一键多渠道(看点、企鹅号、今日头条)发布。

TGL

未来工作

  • 如何解决少量样本训练模型效果不佳问题
  • 拓展更多搞笑场景识别模型
  • 自动撰写优质标题

引用

[1] Yao, Ting, Tao Mei, and Yong Rui. “Highlight detection with pairwise deep ranking for first-person video summarization.” (2016). PDF

[2] Hershey, Shawn, et al. “CNN architectures for large-scale audio classification.” Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. PDF

[3] Knox, Mary Tai, and Nikki Mirghafori. “Automatic laughter detection using neural networks.” Eighth Annual Conference of the International Speech Communication Association. 2007. PDF

本文有帮助?