| OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных |
|
Автор темы:
Wadimus
Дата создания: 11.01.2026 18:46
|
|
OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных
![]() По информации издания Wired, компания OpenAI нашла ещё один способ пополнять набор данных для обучения своих ИИ‑систем. Как сообщают источники, компания начала собирать датасет на основе задач, которые подрядчики выполняли в рамках других проектов. Суть инициативы в том, что OpenAI запрашивает у подрядчиков файлы с примерами реально выполненных работ. Компания принимает различные форматы — от таблиц в Excel и текстов в Word до PDF‑файлов и изображений. Чтобы снизить риски, связанные с персональными и конфиденциальными данными, OpenAI разработала специальный инструмент для очистки файлов. С его помощью подрядчики должны удалять чувствительную информацию до того, как материалы попадут в обучающий датасет. Тем не менее эксперты предупреждают о возможных проблемах. В разговоре с Wired профильный юрист отметил: есть вероятность, что подрядчики не смогут полностью исключить конфиденциальные данные из передаваемых файлов. Даже при использовании инструмента очистки остаётся угроза непреднамеренной утечки информации. Предполагается, что цель этой инициативы — повысить компетенции нейросетей OpenAI в решении офисных задач. Собранный датасет призван помочь моделям лучше работать с типовыми рабочими форматами документов: точнее обрабатывать данные, осваивать распространённые шаблоны и эффективнее справляться с рутинными операциями. На вопросы о возможных утечках данных представители OpenAI предпочитают не отвечать.. Источники: Wired |
|
| Ваши права в разделе |


