Инженеры Северо-Западного университета разработали новый алгоритм искусственного интеллекта (ИИ), предназначенный специально для умных роботов. Этот новый метод помогает роботам быстро и эффективно осваивать сложные навыки, что может значительно улучшить их практичность и безопасность в различных областях, таких как беспилотные автомобили, дроны-доставщики, домашние помощники и автоматизация.
Основной преимуществом алгоритма, получившего название "Обучение с подкреплением с максимальной диффузией" (MaxDiff RL), является его способность стимулировать роботов исследовать окружающую среду наиболее случайным образом, чтобы получить разнообразный набор опыта. Эта "запланированная случайность" улучшает качество данных, собираемых роботами о их собственной среде. Благодаря использованию данных более высокого качества, моделирование роботов демонстрирует более быстрое и эффективное обучение, повышая их общую надежность и производительность.
При тестировании на других платформах искусственного интеллекта смоделированные роботы, использующие новый алгоритм от Северо-Западного университета, всегда превосходили самые современные модели. Новый алгоритм работает настолько хорошо, что роботы могут изучать новые задачи и успешно выполнять их уже с первой попытки, что резко контрастирует с текущими моделями искусственного интеллекта, требующими более медленного обучения методом проб и ошибок.
Для обучения алгоритмов машинного обучения исследователи и разработчики используют большие объемы данных, которые тщательно фильтруются и обрабатываются. Хотя этот процесс хорошо работает для бестелесных систем, таких как ChatGPT и Google Gemini (ранее Bard), он неэффективен для встроенных систем искусственного интеллекта, таких как роботы. Роботы собирают данные самостоятельно — без роскоши кураторов-людей.
Для решения этой проблемы ученые стремились разработать новый алгоритм, который гарантирует, что роботы будут собирать высококачественные данные на ходу. MaxDiff RL приказывает роботам двигаться более хаотично, чтобы получить детальные и разнообразные данные об окружающей среде. Обучаясь на основе самостоятельного случайного опыта, роботы приобретают необходимые навыки для выполнения полезных задач.
В результате тестирования нового алгоритма, исследователи обнаружили, что роботы, использующие MaxDiff RL, учатся быстрее и более последовательно, чем другие модели. Даже более впечатляюще, они часто успешно выполняют задачи с первой попытки, даже начиная без предварительных знаний.
MaxDiff RL является универсальным алгоритмом, который может применяться в различных областях. Исследователи надеются, что это поможет преодолеть фундаментальные проблемы, замедляющие прогресс в области умной робототехники, и в итоге откроет путь к надежному принятию решений в этой области.