收视率调查视角下的大数据与抽样数据

2018年09月26日互联网浏览量：0

电视收视率调查，在看似简单的收视率数字结果背后，是科学的方法和规范的标准。收视率调查视角下的大数据与抽样数据之争，是近年来非常热门的一个话题。作为研究者，对不同类型数据的价值挖掘，我们一直有所关注，这在世界范围内也是一个热点话题。

近年来，收视率被认为是电视行业中最主要的评估标准，收视率数据也引起了高度的重视，收视率引发的数据准确性问题也日益增多。有人将收视率低，收视率数据容易被造假的罪名归于抽样数据。言下之意，似乎大数据的收视结果更为完美。那么抽样数据与大数据之间哪个更胜一筹？哪个更能全面还原观众收视行为和电视市场竞争呢？要回答这些问题，我们需要了解两者之间的特质与差异。

抽样数据的优势与局限性

1、抽样调查具有样本代表性并能推断总体的特点

现实生活中，有很多这样的例子，比如我们要知道工厂生产的一批灯管的寿命，肯定不能把灯管一支支点亮直到它寿终正寝，那样的话，我们就没有灯管可用了。所以，实际工作中采用的手段，就是从每批灯管中抽取部分代表性的样本，进行寿命试验，这批灯管就是总体，参与试验的灯管就是样本。

这种根据科学的统计理论和方法，设计从调查总体中抽取样本，在一定样本量下确保对总体的代表性和预定的精度，是一切市场调查的基本要求和普遍采用的方法。按照总体的情况和调查的精度要求，可以设计具体的抽样方案和确定所需的样本量，这样抽取的随机样本对总体代表性好，可以对总体指标进行统计推断。

收视率调查的抽样就是这种思路，抽取有代表性的样本，通过观察、记录这些样本的收视情况，来对总体观众的收视情况进行统计推断，只要采用科学的抽样方法保证了样本的代表性和合适的样本量，其推断结果就是有理论保证的。

2、抽样调查因样本量规模不够大容易引起业界质疑

但是在收视率调查领域，由于抽样调查的样本量有限，而观众收视碎片化特征越来越明显，使得有些节目会出现低收视现象，因此被业界和舆论所关注，并上升到抽样数据失真或者作假层面，屡屡引发负面舆情。

不可否认的是，随着当前传播环境的发展，收视率调查的确需要用更大规模的样本去刻画更精细和更多元的收视行为。因为抽样数据的精度和样本量是高度相关的，如果样本量足够大，理论上调查精度就可以足够高，但是样本量的大幅增加会对客户和市场带来巨大的成本压力，因此进行收视率调查就需要在成本和精度之间寻找适当的平衡。

大数据的优势和局限性

伴随互联网的发展及电视设备的数字化更新，对受众收看电视行为的监测就有了更多新的方式。大数据也被认为是收视率调查的新方向。

1、大数据因总量大而受到行业推崇

当前电视行业谈论的大数据、海量数据通常指的是机顶盒数据和智能终端数据，即通过数字有线电视以及IPTV和智能电视机等直接采集用户终端的收视行为而得到一定范围内的海量行为数据。这种采集方法具有数据量大、时效快等优势而日渐受到推崇。

但是大数据到底有多大呢？

2、现实工作中，全量的电视大数据其实是“部分全量”的数据孤岛

我国电视数字化产业非常发达，参与主体也非常多，事实上就形成了很多大数据孤岛。比如IPTV用户收视数据，每个城市的IPTV用户数据分散在中国电信、中国联通和中国移动的各省公司里；而数字双向有线用户数据更为分散，基本为每个省直辖市的有线运营商所有。智能电视终端的收视数据则分属海信、TCL、创维、长虹、康佳、小米、乐视等十余家主要厂商所有。每家运营商和厂商都视数据为生命，很难与外界分享，这就形成了事实上以运营商、地域、品牌为特点的数据孤岛。即便某些机构或者公司能够获得多家运营商或者厂商的部分数据，其实也没有改变其数据孤岛的性质。因此，想通过这些孤岛的大数据准确了解一个城市、一个市场的收视全貌是非常困难的。

3、电视大数据是终端收视数据，不是个人收视数据

电视收视主要是家人或多人收视场景。而目前电视大数据均是终端数据，无法还原成个人的收视情况，这是全球电视行业所面临的难题，也是电视大数据被广泛应用面临的最重要的障碍。终端数据不能满足市场营销和广告行业客户所需要明确“谁在看”的个人收视数据要求。

由此可见，互联网时代，大数据似乎一直在为大众描绘一道靓丽景色，事实上，现阶段的大数据还有很多无法逾越的局限性，理想化的全量数据目前行业内尚不存在。

任何数据的应用都应被市场重视并监管

近年来谈及当前的电视传播与观众测量，一直绕不开大数据与抽样数据之争。但从前文分析来看，大数据虽然总量大，但多是源自各自局部的“大覆盖”，同时因个人层面信息的缺失，目前仍有较大的局限和偏失。抽样数据虽然样本量有限，但是基于科学合理的随机抽样，并能回答“谁在看”的问题，为节目编排和广告策划提供了更具目标性的参考。因此，目前在电视受众研究领域，大数据与传统抽样数据并存应该成为业内常态。

其实，无论是哪一种调查体系，收视率数据都要保障数据的公正和客观，必须要实现标准的唯一性和统一性。多套收视率数据并存，会造成市场秩序和市场交易的混乱。从国际通行的操作来看，在大多数国家和地区已经形成一定时期内使用一家收视率调查公司数据的格局。

也就是说，竞争并非收视率调查的最佳状态，在一定时期内，有监督、有标准的一家垄断是更为普遍的常态。垄断的形成各国有各国的特点，美国是靠市场充分竞争后形成了一家收视率调查公司的事实垄断，从而达到了唯一性与统一性；在英国则通过行业协会统一监管和购买的方式，从而形成全英国市场的唯一性与统一性；而在日本，则是其国内相关利益方（广告公司和电视台）合资成立收视率调查公司从而实现了统一。

最终无论哪一家成为行业货币，都需要按照国际通行标准规范操作，并接受行业与主管部门或是第三方监管机制监管。除了收视率数据在广告交易和节目交易中扮演的角色，行业也应重视节目内容的多元价值，建立完善的节目评估体系，通过多维度的综合评价指标体系全面地考量电视节目的多元价值。

最后一点，我想说的是，在个人信息保护意识越来重要的今天，无论电视大数据系统还是抽样的收视调查系统，都要充分重视个人信息保护。我国的个人信息保护法正在起草讨论中，未来将会形成正式的法律法规。收视率抽样调查数据和电视大数据的采集，都是对家庭及个人收视行为信息进行收集、处理及再应用的过程，其中涉及了大量的个人信息保护工作，这一点需要引起行业主管部门及各方参与者足够的重视。

（本文作者：中国传媒大学电视与新闻学院教授，博士生导师柯惠新）