Что такое синтетические данные?
Синтетические данные- это искусственно созданные данные, которые похожи на реальные, но не взяты из жизни. Их генерируют с помощью компьютерных программ.
Их создают с помощью:
— статистических методов;
— специальных нейросетей (например, GAN и VAE);
— моделирования разных ситуаций (в т. ч. агентного).
В основном они используются для обучения и проверки искусственного интеллекта (ИИ), например:
в разработке беспилотных автомобилей (чтобы смоделировать аварии, внезапное появление пешеходов и т. д.);
когда нельзя использовать реальные данные из‑за конфиденциальности;
для тестирования систем безопасности;
чтобы изучить, как будут работать новые транспортные решения, до их внедрения.
Их плюс в том, что синтетические данные:
можно сделать сколько угодно;
легко разметить (подписать, что на них изображено/показано);
не зависят от погоды, времени суток и места;
позволяют отрабатывать редкие и опасные ситуации без реального риска;
защищают личные данные — в синтетических данных нет информации о конкретных людях.
Но есть и минусы:
могут быть необъективными (содержать скрытые искажения);
если обучать ИИ на синтетических данных, при работе с реальными могут быть «сбои»;
нужно тщательно проверять качество таких данных;
сложно найти баланс между точностью данных и их анонимностью.