Гигант социальных сетей, Reddit, подал иск против компании Perplexity, занимающейся разработкой искусственного интеллекта, утверждая, что она незаконно собирала данные пользователей для обучения своей модели искусственного интеллекта. Это стало очередным конфликтом в сфере прав на данные между владельцами контента и индустрией искусственного интеллекта.
В иске, поданном 22 октября в федеральный суд Нью-Йорка, также названы три ответчика, которые, по словам Reddit, помогали Perplexity собирать данные: литовский сборщик данных Oxylabs, «бывший российский ботнет» AWMProxy и техасский стартап SerpApi.
Reddit утверждает, что три небольшие компании смогли извлечь контент, защищенный авторским правом, «маскируя свои личности, местоположение и выдавая свои веб-сборщики за обычных людей».
Компания Perplexity, управляющая поисковой системой на базе искусственного интеллекта, отвергла обвинения и обвинила Reddit в «вымогательстве» и противодействии открытому интернету. В то же время SerpApi заявила CNBC, что «категорически не согласна» с заявлениями Reddit и намерена защищаться в суде.
Этот иск — один из многих, поданных владельцами контента, обвиняющими ИИ-компании в использовании материалов, защищенных авторским правом, без разрешения для обучения своих больших языковых моделей. Reddit, в частности, находится на передовой этой борьбы, начав аналогичный судебный процесс против ИИ-стартапа Anthropic в июне. CNBC не удалось связаться с Oxylabs и AWMProxy.
В заявлении, переданном CNBC, Бен Ли, главный юридический директор Reddit, заявил, что ИИ-компании «увязли в гонке вооружений за качественный человеческий контент», и это давление подпитывает «экономику отмывания данных в промышленных масштабах».
Мошенники обходят технологические средства защиты, чтобы украсть данные, а затем продают их клиентам, жаждущим обучающих материалов. Reddit — главная цель, потому что это одна из крупнейших и наиболее динамичных коллекций чатов, когда-либо созданных людьми.
Reddit, объединяющий более 100 000 сообществ по интересам («сабреддитов»), заявил в своем иске, что публикации его пользователей стали наиболее часто цитируемым источником ответов, сгенерированных ИИ, на Perplexity.
Компания добавила, что отправила Perplexity письмо с требованием прекратить противоправные действия, после чего количество ссылок на Reddit увеличилось в «сорок раз».
Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров Reddit может помочь чат-ботам на основе ИИ выдавать более естественные ответы.
В эпоху искусственного интеллекта Reddit стремится максимально эффективно использовать свой огромный банк данных, предоставляя доступ к нему только по лицензионным соглашениям, связанным с ИИ. Эта социальная сеть подписала такие соглашения с OpenAI и Google, дочерней компанией Alphabet.
В ответ на иск, компания Perplexity в публикации на платформе Reddit заявила, что не обучает модели ИИ на контенте, а лишь обобщает и цитирует публичные обсуждения Reddit. Поэтому компания заявила, что подписать лицензионное соглашение «невозможно».
«Год назад, после этого пояснения, Reddit настоял на том, чтобы мы всё равно заплатили, несмотря на законный доступ к данным Reddit. Мы не склонны поддаваться тактике сильной руки», — говорится в заявлении, где иск описывается как «демонстрация силы в переговорах Reddit с Google и OpenAI об обучающих данных».
«Perplexity считает, что это печальный пример того, что происходит, когда публичные данные становятся важной частью бизнес-модели публичной компании», — добавила Perplexity, отметив, что лицензирование данных становится всё более важным источником дохода для Reddit.
В феврале исполнительный директор Reddit, Джен Вонг, рассказала торговому изданию Adweek, что сделки по лицензированию искусственного интеллекта с Google и OpenAI составляют почти 10% выручки Reddit.


Добавить комментарий