Что такое синтетические данные?

Синтетические данные- это искусственно созданные данные, которые похожи на реальные, но не взяты из жизни. Их генерируют с помощью компьютерных программ.

Их создают  с помощью:
— статистических методов;
— специальных нейросетей (например, GAN и VAE);
— моделирования разных ситуаций (в т. ч. агентного).

В основном они используются для обучения и проверки искусственного интеллекта (ИИ), например:
 в разработке беспилотных автомобилей (чтобы смоделировать аварии, внезапное появление пешеходов и т. д.);
 когда нельзя использовать реальные данные из‑за конфиденциальности;
 для тестирования систем безопасности;
 чтобы изучить, как будут работать новые транспортные решения, до их внедрения.

Их плюс в том, что синтетические данные:
 можно сделать сколько угодно;
 легко разметить (подписать, что на них изображено/показано);
 не зависят от погоды, времени суток и места;
 позволяют отрабатывать редкие и опасные ситуации без реального риска;
 защищают личные данные — в синтетических данных нет информации о конкретных людях.

Но есть и минусы:
 могут быть необъективными (содержать скрытые искажения);
 если обучать ИИ на синтетических данных, при работе с реальными могут быть «сбои»;
 нужно тщательно проверять качество таких данных;
 сложно найти баланс между точностью данных и их анонимностью.