Reddit подал в суд на Perplexity за сбор данных пользователей.

Reddit подал в суд на Perplexity за сбор данных пользователей, что обостряет борьбу за данные пользователей с индустрией искусственного интеллекта.

Гигант социальных сетей, Reddit, подал иск против компании Perplexity, занимающейся разработкой искусственного интеллекта, утверждая, что она незаконно собирала данные пользователей для обучения своей модели искусственного интеллекта. Это стало очередным конфликтом в сфере прав на данные между владельцами контента и индустрией искусственного интеллекта.

В иске, поданном 22 октября в федеральный суд Нью-Йорка, также названы три ответчика, которые, по словам Reddit, помогали Perplexity собирать данные: литовский сборщик данных Oxylabs, «бывший российский ботнет» AWMProxy и техасский стартап SerpApi.

Reddit утверждает, что три небольшие компании смогли извлечь контент, защищенный авторским правом, «маскируя свои личности, местоположение и выдавая свои веб-сборщики за обычных людей».

Компания Perplexity, управляющая поисковой системой на базе искусственного интеллекта, отвергла обвинения и обвинила Reddit в «вымогательстве» и противодействии открытому интернету. В то же время SerpApi заявила CNBC, что «категорически не согласна» с заявлениями Reddit и намерена защищаться в суде.

Этот иск — один из многих, поданных владельцами контента, обвиняющими ИИ-компании в использовании материалов, защищенных авторским правом, без разрешения для обучения своих больших языковых моделей. Reddit, в частности, находится на передовой этой борьбы, начав аналогичный судебный процесс против ИИ-стартапа Anthropic в июне. CNBC не удалось связаться с Oxylabs и AWMProxy.

В заявлении, переданном CNBC, Бен Ли, главный юридический директор Reddit, заявил, что ИИ-компании «увязли в гонке вооружений за качественный человеческий контент», и это давление подпитывает «экономику отмывания данных в промышленных масштабах».

Мошенники обходят технологические средства защиты, чтобы украсть данные, а затем продают их клиентам, жаждущим обучающих материалов. Reddit — главная цель, потому что это одна из крупнейших и наиболее динамичных коллекций чатов, когда-либо созданных людьми.

Reddit, объединяющий более 100 000 сообществ по интересам («сабреддитов»), заявил в своем иске, что публикации его пользователей стали наиболее часто цитируемым источником ответов, сгенерированных ИИ, на Perplexity.

Компания добавила, что отправила Perplexity письмо с требованием прекратить противоправные действия, после чего количество ссылок на Reddit увеличилось в «сорок раз».

Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров Reddit может помочь чат-ботам на основе ИИ выдавать более естественные ответы.

В эпоху искусственного интеллекта Reddit стремится максимально эффективно использовать свой огромный банк данных, предоставляя доступ к нему только по лицензионным соглашениям, связанным с ИИ. Эта социальная сеть подписала такие соглашения с OpenAI и Google, дочерней компанией Alphabet.

В ответ на иск, компания Perplexity в публикации на платформе Reddit заявила, что не обучает модели ИИ на контенте, а лишь обобщает и цитирует публичные обсуждения Reddit. Поэтому компания заявила, что подписать лицензионное соглашение «невозможно».

«Год назад, после этого пояснения, Reddit настоял на том, чтобы мы всё равно заплатили, несмотря на законный доступ к данным Reddit. Мы не склонны поддаваться тактике сильной руки», — говорится в заявлении, где иск описывается как «демонстрация силы в переговорах Reddit с Google и OpenAI об обучающих данных».

«Perplexity считает, что это печальный пример того, что происходит, когда публичные данные становятся важной частью бизнес-модели публичной компании», — добавила Perplexity, отметив, что лицензирование данных становится всё более важным источником дохода для Reddit.

В феврале исполнительный директор Reddit, Джен Вонг, рассказала торговому изданию Adweek, что сделки по лицензированию искусственного интеллекта с Google и OpenAI составляют почти 10% выручки Reddit.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *