AI 精彩视频剪辑：战术竞技类游戏直播

简介

直播平台每天都会产生海量的游戏直播视频，同时有很多内容作者从直播视频中剪辑精彩片段，进行二次创作。然而精彩视频剪辑工作，需要人工浏览视频并找出精彩片段，用视频编辑软件进行剪辑，耗费大量时间和精力。

为了解决这个问题，我们尝试用 AI 完成精彩视频剪辑的工作，并借助 TGL腾讯游戏玩家创作联盟实现视频一键多渠道（看点、企鹅号、今日头条）发布。

DEMO:

此外，剪辑视频带有 AI 识别的标签，比如：武器AK、双人排位、沙漠地图、8倍镜、决赛圈、主播名称等，内容作者可以在 TGL 可按标签检索视频，进行二次创作。

目前已经支持 AI 视频剪辑的游戏有：绝地求生端游、刺激战场、全军出击、穿越火线端游和手游。同时我们接入了虎牙直播，实现了直播视频抓取、AI 视频剪辑、到多渠道自动发布。未来可接各种品类的游戏和赛事的直播 AI 视频剪辑需求、内容素材库的需求，有合作意向的同学可以联系我们。

方法

精彩时刻识别

视频精彩时刻识别的方法有很多，有端到端的方法如 Yao [1]，以及基于视频截图的方法如 YOLO、CNN、Fast-RCNN 等。

综合考虑准确率、实现复杂度、效率，我们使用 CNN 卷积神经网络识别游戏截图的方法。

对每个截图，我们用多个 CNN 模型识别固定区域的图像，包括武器、排名、击杀提示、组队情况等：

pubg-detect

搞笑场景识别

搞笑场景是一个抽象的概念，这里我们把问题简化成笑声场景识别，即 Audio Event Detection (AED) 问题的简化版本。参考 Hershey [2] 和 Knox [3]，使用 MFCC 特征 + CNN 作为笑声场景识别模型。目前该识别模型正在开发中。

游戏视频区域识别

一些主播会以画中画的形式，同时展示游戏视频和主播影像。在这种情况下，需要先识别游戏视频区域的坐标，如下图绿色方框所示，才能够进一步进行精彩时刻的识别。

要完成游戏视频区域识别的任务，可以用机器学习的方法如 CNN 回归模型，也可以用传统视觉算法霍夫曼直线检测。前者的泛化性能好，适用于各种情况，但需要大量的样本；后者基于算法规则，需要对图像进行预处理，不需大量的样本。

综合考虑效率和成本，我们采用视觉算法完成这个任务。简单地说，首先把截图进行膨胀、腐蚀，然后用 Canny 算子的到边缘图片，最后应用霍夫曼直线检测算法得到视频区域。

剪辑和拼接

给定原始视频和精彩时刻、搞笑时刻，我们制定一些剪辑规则，比如剪辑精彩时刻的前10秒后5秒、剪辑吃鸡时刻的前2分钟，然后调用视频处理工具 ffmpeg 进行剪辑。

###TGL一键多渠道发布

借助 TGL腾讯游戏玩家创作联盟，由 AI 剪辑视频后，可以实现视频的一键多渠道（看点、企鹅号、今日头条）发布。

TGL

未来工作

如何解决少量样本训练模型效果不佳问题
拓展更多搞笑场景识别模型
自动撰写优质标题

引用

[1] Yao, Ting, Tao Mei, and Yong Rui. “Highlight detection with pairwise deep ranking for first-person video summarization.” (2016). PDF

[2] Hershey, Shawn, et al. “CNN architectures for large-scale audio classification.” Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017. PDF

[3] Knox, Mary Tai, and Nikki Mirghafori. “Automatic laughter detection using neural networks.” Eighth Annual Conference of the International Speech Communication Association. 2007. PDF