Pouyan, M., Golzari, S., Mousavi, A., Hatam, Ahmad. Improving Q-Learning Using Simultaneous Updating and Adaptive Policy Based on Opposite Action. Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran. 2016;14(2):137-146.