Синтетические данные — это данные, созданные искусственно через алгоритмы на основе фактических данных и учитывают их паттерны и распределение, но не раскрывают конфиденциальность данных. Они представляют из себя фиктивные показатели, задачей которых является демонстрация возможной структуры реальных данных.
Синтетические данные формируются и применяются с целью экспериментальной проверки гипотез и концепций без вовлечения подлинных данных, а также могут использоваться с целью тестирования систем, проведения мероприятий дататонов с целью выполнения заданий участниками по различным аналитическим кейсам. Размещение синтетически сгенерированных данных обусловлено стремлением предоставить конечным пользователям наглядное представление о структуре реальных датасетов.
Образцы синтетических датасетов можете скачать ниже. Для получения более полной информации по синтетическим данным рекомендуется направить официальный запрос в Бюро национальной статистики (БНС). Для понимания технической составляющей синтетических данных предлагаем ознакомиться с инструкцией ООН по составлению синтетических данных по следующей ссылке https://unece.org/statistics/publications/synthetic-data-official-statistics-starter-guide