На этапе усовершенствования способа действий значения состояния используются для исследования лучших предложений. На интуитивном уровне понятно, что такая цель может быть достигнута с помощью проверки действий, которые приводят к получению лучшей отдачи. Если оцениваемое значение действия выше, это действие улучшает способ действий, поэтому оно используется вместо прежнего.
Рассматривая широко известный пример с двухмерным лабиринтом, можно сделать вывод, что при оценке способа действий вычисляется расстояние до каждого квадрата от выхода, а на этапе усовершенствования способа действий предпринимается попытка заменить одни шаги другими, чтобы можно было быстрее достичь выхода.
Этот метод осуществляется по принципу чередования этапов оценки и усовершенствования способа действий. Это — итерационный процесс (на что указывает само название метода), который продолжается до тех пор, пока не будет выполнен критерий сходимости. Инициализация осуществляется путем присваивания состояниям подходящих оценок (например, 0) и выбора случайным образом любого способа действий. После этого на первом этапе оценивается способ действий с помощью вычисления наиболее актуального значения состояния. Интересует перевозка мебели? Обратитесь в компанию М-Дизайн. Профессиональные специалисты выполнят работу максимально быстро и качественно.
Итеративное усовершенствование способа действий завершается после того, как исключается возможность вносить какие-либо изменения в способ действий. Следует отметить, что в ходе всех итераций используется только один массив; массив V необходим для хранения оценок значений состояния. В некоторых реализациях предусмотрено хранение результатов следующей итерации в отдельном массиве. Для этого требуется больший объем памяти, а период времени, необходимый для достижения сходимости, становится более продолжительным, поэтому часто достаточно иметь только один массив.