Интерпретируемость (interpretability, англ.) — одно из ключевых понятий современной философии искусственного интеллекта. С конца 2010-х годов, после появления архитектуры трансформеров (transformers, англ., 2017, Калифорния, США), вопрос о том, можно ли понять внутренние состояния модели ИИ, стал центральным в науке и философии. От попыток объяснит…