互联网公共私人界限模糊数据挖掘边界何在

大数据2年前 (2023)发布 aixure

57 0 0

导读：数据挖掘本身不存在伦理问题。对个人隐私的威胁的产生主要来自于当数据一旦被编译，导致数据挖掘方或者任何可以接近数据集的人，能够辨别特定的个体，便存在利益侵犯的可能性。互联网已经成为现代人生活的重要一部分，我们对键盘或鼠标的每一次敲击所产生的…

数据挖掘本身不存在伦理问题。对个人隐私的威胁的产生主要来自于当数据一旦被编译，导致数据挖掘方或者任何可以接近数据集的人，能够辨别特定的个体，便存在利益侵犯的可能性。

互联网已经成为现代人生活的重要一部分，我们对键盘或鼠标的每一次敲击所产生的信息都会与ID定义的个体发生精确的关联。不同于人，互联网没有遗忘机制，依靠计算机，它拥有强大的存储和记录能力。于是，用户的个体特性、地理位置、好友网络、个人资料、浏览习惯、消费偏好、购物情况、信用记录等都会变成信息流为各个互联网公司所挖掘和分析。

个人隐私被互联网泄露的后果在2012年3月美国一家法院的判案中得以极端体现。一位名为克莱曼提的美国年轻人被室友拉维通过网络搜索确认为同性恋，克莱曼提因忍受不了性倾向歧视和网络欺凌，最终选择了跳桥自杀，拉维也因此被判入狱10年。克莱曼提登录同性恋论坛的频率、网站留言“为什么异性喜欢我，我对她们却没感觉？不过妈妈喜欢我啊，我也喜欢妈妈啊……”等等在网络上记录的痕迹被拉维搜到，成为酿成悲剧的导火索。

这是个体有目的地通过互联网挖掘他人隐私数据（俗称“人肉”）带来的严重后果，那么互联网公司的数据挖掘行为呢？

新近很火热的移动社交应用Path也捅了娄子，为了帮用户获得最优的150个好友，Path未经用户批准扫描手机通讯录。Path的创始人出面道歉，并解释说上传用户电话簿的行为是有严格限制的，仅仅用于提高“好友建议”的质量。所有用户在Path上分享的消息都经过了加密，这些电话簿的资料同样也是。

“虚拟社交关系”入侵“现实电话簿”的不止Path.大名鼎鼎的Twitter近期也招供下载存储用户通讯录长达18个月，还有KIK、WhatsApp、米聊、速聊等一大堆社交应用程序这样或明或暗地从用户手机中吸取数据。这种数据挖掘行为已经形成了不少的担忧甚至反对的声音：用户的个人数据和关系属于用户本人，用户拥有自己数字化数据的知情权、拥有权和绝对控制权，其他公司对这些个人数据的追踪、分析和转让都是不可容忍的。

最近另一起与数据挖掘有关的伦理讨论由互联网巨头谷歌引起。2012年1月，谷歌宣布整合包括Youtube、Gmail、Google+等旗下服务中搜集的用户个人信息，用户将因此从根本上失去在无远弗届的谷歌世界里同时管理和拥有多个不同身份的能力。谷歌的这一行为已经引起了政府的注意，代表欧盟监管机构的法国计算机服务与公民自由国家委员会很快给谷歌写信，称初步调查显示新的政策不符合欧盟的数据保护指令。

CFP渚涘浘

这些争论无非源自于对数据源中可能含有的用户身份、健康状况、家庭情况、个人收入等关键信息泄露的担忧。另外，互联网公司可以通过将所分析的用户同其所掌握的用户个人数据结合，进而变身“老大哥”对用户的网络活动进行监控。数据挖掘还有可能把原本分散在多个网络系统中的用户数据集成、提炼，从而掌握用户在各个领域的行为，这些行为的汇集可能是用户不希望外泄的。

就像保护个人隐私并不阻碍我们愿意在公共场合说话，数据挖掘也不总是站在隐私的对立面。仔细回想一下，我们经常会在公开场合，例如餐馆、车站，进行私人性质的谈话。我们明白对话内容会被服务员或者路人听到，但心理学家欧文·高夫曼所说的“礼貌性疏忽（civilinattention）”会帮到我们，人们一般会选择过滤掉我们的谈话内容，即使听到了也不会加入我们的讨论。当然我们自己也会通过压低声音来限制传播范围，谈话末了还会加上一句，“千万不要告诉别人”。

在网络这个虚拟公共场合里，用户也可以对一些信息内容采取加设密码、“穿上马甲”等方式来进行“窃窃私语”，效果就像在餐馆谈话时压低声音一样明显。不过用户的大多数数据还是会被记录，然后被使用于商业目的。现在流行的精准营销、社会化营销、移动广告、O2O等无不是在数据挖掘的支持下产生的。

而包括谷歌在内的一些互联网公司认为，这些适度的隐私出让可以让用户受益，并带来社会效率的提升。如果没有得到用户足够多的数据并进行分析，Google的搜索结果可能会像谢耳朵的超严密逻辑分析一样无厘头。某种程度上来说，正是这些用户数据的有心搜集，才让互联网提供的各种服务多了些温情，少了些死板，“你要让它为你更好地服务就不可能不让它更了解你是谁”。

其实，数据挖掘本身不存在伦理问题。数据挖掘技术是中立的，大多数用户行为的数据也不会产生伦理问题，从广义上讲，从乘用车的碰撞测试数据到一组股票的表现均可被视为数据挖掘的范围，这些类型的数据虽占据可以被数据挖掘方法所分析的很大比例，却很少让人产生道德方面的忧虑。

但对个人隐私的威胁的产生主要来自于当数据一旦被编译，导致数据挖掘方或者任何可以接近数据集的人，能够辨别特定的个体，便存在利益侵犯的可能性。例如公司可以透过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人，从而意图削减保险支出。

面对互联网公司数据挖掘的隐秘性，欧盟正在起草新的数据保护条例，包括将有可能对违规公司处以其全球收入2%的罚款。2012年2月，奥巴马政府也定下了新隐私保护规范的架构，此规范能让消费者更好地控制个人信息的使用。可是，当互联网巨头开始统治大多数网民的数字生活时，他们也成为重新定义善恶的角色。这时，恐怕用户再用脚来投票，就等于失去了一切。

# 大数据