你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

liukang20243个月前 (05-20)今日吃瓜1152

谁能想到，咱们多年前的谈天记载、交际媒体上的陈年相片，遽然变得无价之宝，被大科技公司争相疯抢。

现在，硅谷大厂们现已纷繁出动，买下全部能购买版权的互联网数据，这姿势简直要抢破头了！

图画保管网站Photobucket的陈年旧数据，原本现已多年无人问津，但现在，它们正在被各大互联网公司疯抢，用来练习AI模型。

为此，科技巨子们乐意拿出实打实的真金白银。比方，每张相片价值5美分到1美元，每个视频价值逾越1美元，具体情况去取决于买家和资料品种。

总归，为了购买AI练习数据，巨子们现已展开了一场地下比赛！

而最近闹得轰轰烈烈的Meta图画生成器大翻车事情，更是让AI的练习数据「刻板形象」露出无遗。

假如喂给模型的数据无法改动「成见」，那各大公司要遭受的言论风云，只怕少不了。

Meta的AI生图东西画不出来「亚洲男性和白人妻子」或「亚洲女人和白人老公」

巨子狂砸数十亿美元，只为买到数据「黄金」

依据路透社报导，在2000年代，Photobucket处于巅峰期，具有7000万用户。而今日，这家尖端网站的用户现已骤降到了200万人。

但生成式AI，给这家公司带来了重生。

CEO Ted Leonard开心肠泄漏，现在现已有多家科技公司找上门来，乐意重金购买公司的130亿份相片和视频。

意图，当然便是练习AI。

为了得到这些数据，各大公司都十分舍得割肉。

并且，他们还想要更多！听说，一位买家表明，自己想要逾越10亿个视频，而这，现已远远超出了Photobucket能供给的数量。

据大略估量，Photobucket手中握着的数据，很或许价值数十亿美元。

OpenAI陷申述风云，版权太灵敏了

现在眼看着，咱们的数据都不行用了。

依据Epoch研讨所的剖析，到2026年，科技公司很或许会耗尽互联网上全部的高质量数据，由于他们耗费数据的速度，远远逾越了数据的生成速度！

练习ChatGPT的数据，是从互联网上免费抓取的。

Sora的练习数据来历不详，CTO Murati承受采访时支支吾吾的表现，简直又让OpenAI大翻车。

虽然OpenAI表明，自己的做法彻底合法，但前方还有一堆版权诉讼在等着他们。

而其他大科技公司都跟着学乖了，咱们都在悄悄地为付费墙和登录屏幕背面的确定内容付费。

现在，无论是陈腐的谈天记载，仍是被忘记的交际媒体上褪色的旧相片，遽然都变成了无价之宝的东西。

而各大公司现已纷繁出动，急于寻觅版权全部者的授权。究竟，私家保藏的东西，是无法抓取的。

外媒记者造访了30多名专业人士，发现这背面躲藏的，是一个黄金商场。

虽然许多公司关于这个不透明的AI商场规划表明沉默，但Business Research Insights等研讨人员以为，现在商场规划约为25亿美元，

并猜测十年内或许会增加近300亿美元。

生成数据淘金热，让数据商乐开花

对科技公司来说，假如不能运用免费抓取的网页数据档案，比方Common Crawl，那本钱会是一个很可怕的数字。

可是一连串版权诉讼和监管热潮，现已让他们别无选择。

乃至，硅谷现已呈现了一个新式的职业——数据经纪人。

而图片、视频供货商们，也随之赚得盆满钵满。

手快的公司，早就反响过来了。ChatGPT在2022年末露脸的几个月内，Meta、谷歌、亚马逊和苹果就现已敏捷和图片库供给商Shutterstock达成协议，运用库中的数亿份图画、视频和音乐文件进行练习。

依据首席财政官泄漏的数据，这些买卖从2500万美元到5000万美元不等。

而Shutterstock的竞赛对手Freepik，也现已有了两位大买家，2亿张图片档案中的大部分，会以2至4美分的价格授权。

OpenAI当然也不会落后，它不仅仅Shutterstock的前期客户，还与包含美联社在内的至少四家新闻机构签署了答应协议。

让内容「契合品德」

一起鼓起的，还有AI数据定制职业。

这批公司取得了与播客、短视频和与数字助理互动等实际国际内容的授权，一起还建立了短期合同工网络，从头开始定制视觉效果和语音样本。

作为代表之一的Defined.ai，现已把自己的内容卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。

其间，一张图片卖1到2美元，一部短视频卖2到4美元，一部长片每小时能够卖到100到300美元，文本的市价则是每字0.001美元。

而比较费事的裸体图画，价格为5到7美元，由于还需求后期处理。

而这些相片、播客和医疗数据的全部者，也会取得总买卖额20%至30%的费用。

一位巴西数据商表明，为了取得犯罪现场、抵触暴力和手术的图画，他需求从差人、自在摄影记者和医学生手里去买。

他弥补说，他的公司雇用了习气于看到暴力损伤的护理来脱敏和标示这些图画，这对未经练习的眼睛来说是令人不安的。

而将图画脱敏、标示的作业，则交给惯于看到暴力损伤的护理，究竟未经练习的人眼看到这些图画，会很不安。

但是，这些AI模型的「燃料」，很或许会引发严峻的问题，比方——吐出用户隐私。

专家发现，AI会反刍练习数据，比方，它们会吐出Getty Images水印，逐字输出纽约时报文章的阶段，乃至再现真人图画。

Getty Images责备Stability AI「以惊人的规划肆无忌惮地侵略它的常识产权」

也便是说，几十年前或人发布的私家相片或私密主意，很或许在不知情的情况下，被AI模型原样吐了出来！

这次「ChatGPT在回复中走漏生疏男人自拍照事情」，让咱们较为惊惧

这些危险，现在还没有有用办法处理。

查询显现，用户乐意每月多付1美元，让自己的个人数据不被第三方运用

Altman，也看上了组成数据

别的，Sam Altman也早看到了组成数据的未来。

这些数据不是人类直接发明的，而是由AI模型生成的文本、图画和代码，也便是说，这些体系通过学习自己产生的内容来前进。

已然AI能发明出挨近人类的文本，当然也就能自产自销，帮自己进化成更先进的版别。

只需咱们能够跨过组成数据的要害阈值，即让模型能够自主发明出高质量的组成数据，那么全部问题都将方便的解决。

——Sam Altman

不过，这件事真的这么简单吗？

人工智能研讨者们现已研讨组成数据多年，但要构建一个能自我练习的人工智能体系并非易事。

专家发现，模型假如只依赖于自我生成的数据，或许会不断重复自己的过错和限制，堕入一个自我加强的循环中。

这些体系所需的数据，就像是在森林中寻觅一条途径，假如它们仅仅依赖于组成数据，就或许在森林里走失。

——前OpenAI研讨员、现任不列颠哥伦比亚大学计算机科学教授Jeff Clune

对此，OpenAI正在探究怎么让两个不同的人工智能模型协作，一起生成更高质量、更牢靠的组成数据。其间一个担任生成数据，另一个则担任评价。

这种办法是否有用，还未可知。

「规划」Is All You Need

数据为什么对AI模型这么重要？这要从下面这篇论文说起。

2020年1月，约翰斯·霍普金斯大学的理论物理学家Jared Kaplan与9位OpenAI研讨人员一起宣布了一篇具有里程碑含义的人工智能论文。

他们得出了一个清晰的定论：练习大言语模型所用的数据越多，其功能就越好。

正如一个学生通过阅览更多书本能学到更多常识相同，大言语模型能通过更多的信息更精确地辨认文本形式。

很快，「只需规划足够大，全部就皆有或许」便成为了AI范畴的一致。

论文地址：https://arxiv.org/abs/2001.08361

2020年11月，OpenAI推出的GPT-3，便当用了其时最为巨大的数据进行练习——约3000亿个token。

在吸收了这些数据后，GPT-3展示出了惊人的文本生成才能——它不只能够编撰博客文章、诗篇，乃至还能编写自己的计算机程序。

但现在看来，这个数据集的规划就显得适当小了。

到了2022年，DeepMind将练习数据直接拉到了1.4万亿个token，比Kaplan博士在论文中猜测的还要多。

但是，这一记载并未坚持太久。

2023年，谷歌发布的PaLM 2，在练习token上更是达到了3.6万亿——简直是牛津大学博德利图书馆自1602年以来搜集手稿数量的两倍。

OpenAI用100万+小时YouTube视频训GPT-4

但正如OpenAI的CEO Sam Altman所说，AI终究会耗费完互联网上全部可用的数据资源。

这不是预言，也不是骇人听闻——由于Altman自己就曾亲眼目睹过它的产生。

在OpenAI，研讨团队多年来一直在搜集、整理数据，并将其汇集成巨大的文本库，用以练习公司的言语模型。

他们从GitHub这个计算机代码库中提取信息，搜集了国际象棋走法的数据库，并运用Quizlet网站上关于高中考试和作业的数据。

但是，到了2021年末，这些数据资源现已耗尽。

为了下一代AI模型的开发，总裁Brockman决议亲身披挂上阵。

在他的带领下，团队开宣布了一款全新名的语音辨认东西Whisper，能够快速精确地转录播客、有声读物和视频。

有了Whisper之后，OpenAI很快便转录了逾越100万小时的YouTube视频，而Brockman更是亲身参加到了搜集作业傍边。

终究的故事咱们都知道了，在如此高质量数据的加持下，地表最强的GPT-4横空出世。

谷歌：我也相同

风趣的是，谷歌其实早就知道OpenAI在运用YouTube视频搜集数据，但从未想过要出头阻挠。

你猜的没错，谷歌也在运用YouTube视频来练习自家的AI模型。

而假如要对OpenAI的行为大加责备，他们不只会露出自己，乃至还会引发大众愈加激烈的反响。

不只如此，那些储存在Google Docs、Google Sheets等运用里的数十亿文字数据，也是谷歌的方针。

2023年6月，谷歌的法令部分要求隐私团队修正服务条款，然后扩展公司对顾客数据的运用权限。

也便是，为公司能够运用用户揭露共享的内容开发一系列的AI产品，铺平道路。

据职工泄漏，他们被清晰指示要在7月发布新的条款，由于那时咱们的注意力都在行将到来的假日上。

7月1日发布的新条款不只答应谷歌运用这些数据开发言语模型，还能用于创立像Google Translate、Bard和Cloud AI等广泛的AI技能和产品

Meta数据缺乏，高管被逼天天开会

相同在追逐OpenAI的，还有Meta。

为了能够逾越ChatGPT，小扎不分昼夜地敦促公司的高管和工程师加速开发一个能与之竞赛的谈天机器人。

但是，到了上一年年头，Meta也遇到了和其他竞赛者相同的难题——数据缺乏。

虽然Meta掌管着巨大的交际网络资源，但不只用户没有保存帖子的习气（许多人会删去自己之前的发布），并且Facebook究竟也不是一个咱们习气发高质量长文的当地。

此前，小扎曾骄傲宣称Meta Platforms在渠道上拜访数据，是Meta AI的一大优势

生成式AI副总裁Ahmad Al-Dahle向高层泄漏，为了开宣布一个模型，他的团队简直运用了网络上全部可找到的英文书本、论文、诗篇和新闻文章。

但这些还远远不行。

2023年3月到4月，公司的商务开展担任人、工程师和律师简直每天都在密布会议，企图找到处理方案。

他们考虑了为获取新书的完好版权付出每本10美元的或许性，并评论了收买出书了斯蒂芬·金等作者著作的Simon & Schuster的主意。

与此一起，他们还评论了未经答应就对网络上的书本、论文等著作进行摘要的做法，并考虑进一步「吸收」更多内容，哪怕这或许引起法令诉讼。

好在，作为职业标杆的OpenAI，就在未经授权的情况下运用了版权资料，而Meta或答应以参阅这一「商场先例」。

依据录音，Meta的高管们决议学习2015年作家协会（Authors Guild）对谷歌的法庭判定。

在那个事例中，谷歌被答应扫描、数字化并在在线数据库中编目书本，由于它仅在线上仿制了著作的一小部分，并且改动了原作，这被认定为合理运用。

在会议中，Meta的律师们表明，用数据练习人工智能体系应当相同被视为合理运用。

但即便如此，Meta好像仍是没攒够数据……

AI生图东西回绝「白人和亚洲人」合影

最近，外媒The Verge的记者在屡次测验后发现，Meta的AI图画生成东西并不能创立一张东亚男性和白人女人同框的图片。

不论prompt是「亚洲男性与白人朋友」、「亚洲男性与白人妻子」、「亚洲女人与白人老公」，仍是通过魔改的「一位亚洲男性和一位白人女人带着狗浅笑」，都杯水车薪。

当他将「白人」改为「高加索人」时，成果仍旧如此。

比方「亚洲男性和高加索女人的婚礼日」这个prompt，得到的却是一张身穿西装的亚洲男性与身着旗袍/和服混搭的亚洲女人的图画……

AI竟然不可思议亚洲人与白人并肩而立的场景，这着实有些匪夷所思。

并且，在生成的内容中，还躲藏着愈加奇妙的成见。

举个比如，Meta总是将「亚洲女人」描绘成东亚面孔，好像疏忽了印度作为国际上人口最多国家的现实。与此一起，「亚洲男性」多为年长者，而亚洲女人却总是年轻化。

相比之下，OpenAI加持的DALL-E 3，就彻底没有这个问题。

对此，有网友指出，呈现这个问题的原因是Meta在模型练习时没有输入足够多的场景示例。

简而言之，问题不在于代码自身，而在于模型练习时所运用的数据集不行丰厚，没有充沛掩盖全部或许的场景。

但更深层次的是，AI的行为是其发明者成见的表现。

在美国媒体中，「亚洲人」一般便是指东亚人，不契合这一单一形象的亚洲人简直从文明认识中被抹去，即便是契合的人也在干流媒体中被边缘化。

而这，仅仅因数据形成的成见的一隅罢了。

告发/反应

标签: 聊天记录数十亿美元大厂硅谷

返回列表

上一篇：网警提示：这些习气正在走漏你的个人信息

下一篇：外交部：中方决议对13家美国军工企业及6名高管采纳反制办法

众所周知，互联网大厂历来很卷，数不清的加班、大小周，让许多“大厂牛马”天怒人怨。

互联网职业竞赛剧烈，谁也不想掉队。不过，快手、字节跳动、得物等互联网大厂近年来连续撤销了大小周，改为职工按需加班。

小红书4月24日发布全员信中，宣告了几项新改变，其中就触及大小周的问题。

小红书标明，清晰撤销隔周周六作业的组织，也便是咱们了解的“大小周” 形式将完全成为前史。

小红书给互联网大厂上了一课

小红书撤销职工竞业、大小周众所周知，互联网大厂历来很卷，数不清的加班、大小周，让许多“大厂牛马”天怒人怨。互联网职业竞赛剧烈，谁也不想掉队。不过，快手、字节跳动、得物等互联网大厂近年来连续撤销了大小周...

友情链接：

二区吃瓜网