Вычислительные подходы к решению фазовой проблемы кристаллографии биополимеров при низком разрешении
|
ВВЕДЕНИЕ 5
ГЛАВА I. ФАЗОВАЯ ПРОБЛЕМА ПРИ НИЗКОМ
РАЗРЕШЕНИИ. (ЛИТЕРАТУРНЫЙ ОБЗОР) 10
1. Зачем нужны фазы рефлексов низкого разрешения 10
2. Восстановление структурных факторов низкого
разрешения 12
2.1. Определение фаз методом максимального детерминанта 12
2.2. Двухшаговая процедура восстановления
структурных факторов 13
2.3. Восстановление структурных факторов с использованием гистограмм электронной плотности.... 15
3. Классические прямые методы 15
4. Экспериментальные методы определения фаз
структурных факторов низкого разрешения 16
4.1. Изоморфное замещение 16
4.2. Молекулярное замещение 17
4.3. Метод вариации контраста 17
4.4. Многоволновая дифракция 18
5. Ab-initio определение фаз при низком разрешении 19
5.1. Поиск в пространстве фаз 19
5.2. Критерии, основанные на свойствах функции распределения электронной плотности 20
5.2.1. Гистограмма электронной плотности 20
5.2.2. Топологические свойства (связность) 21
5.2.3. Локальная вариация плотности 22
5.3. Поиск в пространстве параметров 22
5.3.1. Сферически симметричная модель 23
3
5.3.2. Сферически несимметричная модель 23
5.3.3. Параметризация при помощи нескольких сфер 24
5.3.4. Параметризация при помощи большого числа
сфер 24
5.3.5. Использование сферической оболочки 24
5.3.6. Пиксельное моделирование 25
5.4. Критерии поиска в пространстве параметров 25
5.4.1. Критерий типа R-фактора 25
5.4.2. Коэффициент корреляции модулей 26
5.4.3. Анализ упаковки 27
5.5. Вероятностные подходы 27
5.5.1. Априорные распределения с максимальной энтропией 28
5.5.2. Маска области как априорное распределение 28
5.5.3. Выбор из нескольких альтернативных масок 29
5.5.4. Максимум правдоподобия 29
5.5.5. Аппроксимация априорного распределения градиентом функции правдоподобия 31
ГЛАВА II. FAM - МЕТОД РЕШЕНИЯ ФАЗОВОЙ
ПРОБЛЕМЫ ПРИ НИЗКОМ РАЗРЕШЕНИИ 32
1. Предварительные сведения 33
1.1. Тестовый объект 33
1.2. Контрольный критерий: фазовая корреляция 33
1.3. Критерий отбора: корреляция модулей 35
1.4. FAM-модели 36
2. Связь между качеством модулей и фаз, рассчитанных
по FAM - модели 37
2. 1 . Точность фаз, получаемых при помощи FAM
моделей 37
2.2. Поиск оптимальной FAM-модели 40
2.3. Переформулировка задачи определения фаз 43
4
3. FAM - метод 45
4. 3.1. Генерация и отбор вариантов 45
3.2. Кластерный анализ 47
3.3. Обработка кластера 53
3.4. Уточнение значений фаз и повышение разрешения 53
4. Проблема выбора наилучшего кластера 54
4.1. Визуальный анализ 54
4.2. Анализ плотности на осях вращения 55
4.3. Топологические свойства (связность) 55
4.4. Монте-Карловский тест (правдоподобие) 55
ГЛАВА III. ОПРЕДЕЛЕНИЕ СТРУКТУРЫ РИБОСОМНОЙ
ЧАСТИЦЫ 50S ИЗ Thermus thermophilus ПРИ
РАЗРЕШЕНИИ ПОРЯДКА 40А 61
1. Определение структуры T50S 62
2. Сравнение с электронно-микроскопической моделью 64
ПРИЛОЖЕНИЕ. Оптимальное выравнивание наборов фаз 74
1. Введение 74
2. Выравнивание карт 75
2.1. Группа Р1 75
2.2. Нетривиальные пространственные группы 76
3. Использование асимметричной части множества структурных факторов 78
4. “Перевернутые” карты 80
5. Разрешенные сдвиги начала координат 81
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 84
СПИСОК ЛИТЕРАТУРЫ 85
ГЛАВА I. ФАЗОВАЯ ПРОБЛЕМА ПРИ НИЗКОМ
РАЗРЕШЕНИИ. (ЛИТЕРАТУРНЫЙ ОБЗОР) 10
1. Зачем нужны фазы рефлексов низкого разрешения 10
2. Восстановление структурных факторов низкого
разрешения 12
2.1. Определение фаз методом максимального детерминанта 12
2.2. Двухшаговая процедура восстановления
структурных факторов 13
2.3. Восстановление структурных факторов с использованием гистограмм электронной плотности.... 15
3. Классические прямые методы 15
4. Экспериментальные методы определения фаз
структурных факторов низкого разрешения 16
4.1. Изоморфное замещение 16
4.2. Молекулярное замещение 17
4.3. Метод вариации контраста 17
4.4. Многоволновая дифракция 18
5. Ab-initio определение фаз при низком разрешении 19
5.1. Поиск в пространстве фаз 19
5.2. Критерии, основанные на свойствах функции распределения электронной плотности 20
5.2.1. Гистограмма электронной плотности 20
5.2.2. Топологические свойства (связность) 21
5.2.3. Локальная вариация плотности 22
5.3. Поиск в пространстве параметров 22
5.3.1. Сферически симметричная модель 23
3
5.3.2. Сферически несимметричная модель 23
5.3.3. Параметризация при помощи нескольких сфер 24
5.3.4. Параметризация при помощи большого числа
сфер 24
5.3.5. Использование сферической оболочки 24
5.3.6. Пиксельное моделирование 25
5.4. Критерии поиска в пространстве параметров 25
5.4.1. Критерий типа R-фактора 25
5.4.2. Коэффициент корреляции модулей 26
5.4.3. Анализ упаковки 27
5.5. Вероятностные подходы 27
5.5.1. Априорные распределения с максимальной энтропией 28
5.5.2. Маска области как априорное распределение 28
5.5.3. Выбор из нескольких альтернативных масок 29
5.5.4. Максимум правдоподобия 29
5.5.5. Аппроксимация априорного распределения градиентом функции правдоподобия 31
ГЛАВА II. FAM - МЕТОД РЕШЕНИЯ ФАЗОВОЙ
ПРОБЛЕМЫ ПРИ НИЗКОМ РАЗРЕШЕНИИ 32
1. Предварительные сведения 33
1.1. Тестовый объект 33
1.2. Контрольный критерий: фазовая корреляция 33
1.3. Критерий отбора: корреляция модулей 35
1.4. FAM-модели 36
2. Связь между качеством модулей и фаз, рассчитанных
по FAM - модели 37
2. 1 . Точность фаз, получаемых при помощи FAM
моделей 37
2.2. Поиск оптимальной FAM-модели 40
2.3. Переформулировка задачи определения фаз 43
4
3. FAM - метод 45
4. 3.1. Генерация и отбор вариантов 45
3.2. Кластерный анализ 47
3.3. Обработка кластера 53
3.4. Уточнение значений фаз и повышение разрешения 53
4. Проблема выбора наилучшего кластера 54
4.1. Визуальный анализ 54
4.2. Анализ плотности на осях вращения 55
4.3. Топологические свойства (связность) 55
4.4. Монте-Карловский тест (правдоподобие) 55
ГЛАВА III. ОПРЕДЕЛЕНИЕ СТРУКТУРЫ РИБОСОМНОЙ
ЧАСТИЦЫ 50S ИЗ Thermus thermophilus ПРИ
РАЗРЕШЕНИИ ПОРЯДКА 40А 61
1. Определение структуры T50S 62
2. Сравнение с электронно-микроскопической моделью 64
ПРИЛОЖЕНИЕ. Оптимальное выравнивание наборов фаз 74
1. Введение 74
2. Выравнивание карт 75
2.1. Группа Р1 75
2.2. Нетривиальные пространственные группы 76
3. Использование асимметричной части множества структурных факторов 78
4. “Перевернутые” карты 80
5. Разрешенные сдвиги начала координат 81
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 84
СПИСОК ЛИТЕРАТУРЫ 85
Изучение пространственной структуры биологических макромолекул и их комплексов является важным направлением современной биологии и создает предпосылки для детального понимания механизмов их функционирования. Метод рентгеноструктурного анализа монокристаллов является на сегодняшний день единственным экспериментальным методом, позволяющим получать детальное описание сложных макромолекулярных комплексов при атомном разрешении. Однако спецификой рентгеновского эксперимента является то, что он позволяет получить лишь часть информации (модули структурных факторов), необходимой для восстановления исследуемой структуры. Получение недостающей части информации (значений фаз структурных факторов) представляет собой центральную методологическую проблему рентгеноструктурного анализа. Основные подходы к решению фазовой проблемы, используемые в макромолекулярной кристаллографии, опираются либо на получение химическими методами изоморфных модификаций исследуемого объекта и проведение дополнительных рентгеновских экспериментов, либо на присутствие в объекте аномально рассеивающих атомов, либо на наличие известной атомной структуры гомологичного объекта. Попытки применения этих подходов встречаются с существенными сложностями при работе с макромолекулярными комплексами. В то же время разработаны математические методы, позволяющие решать фазовую проблему для низкомолекулярных соединений, основываясь лишь на данных рентгеновского эксперимента с не модифицированным (нативным) объектом. В связи с этим, в последнее десятилетие одной из актуальных задач макромолекулярной кристаллографии является разработка аналогичных методов решения фазовой проблемы, применимых к макромолекулярным объектам. Такие методы называются обычно прямыми или ab-initio методами, чтобы подчеркнуть, что они не требуют наличия ни изоморфных производных, ни известных гомологичных объектов.
6
Задачей данного исследования являлась разработка процедуры прямого решения фазовой проблемы макромолекулярной кристаллографии при низком разрешении. Решение фазовой проблемы при низком разрешении подразумевает определение значений фаз для нескольких десятков коэффициентов Фурье (структурных факторов) в разложении в ряд Фурье искомой функции распределения электронной плотности в исследуемом объекте. Наличие такой информации делает возможным расчет соответствующей части ряда Фурье и позволяет получить сведения о локализации объекта в элементарной ячейке кристалла и его внешних очертаниях, что является стартовой точкой для процедур расширения и уточнения набора фаз.
В программу работы входило: исследование степени неоднозначности решения фазовой проблемы при низком разрешении и разработка примененных для этого исследования процедур кластерного анализа; разработка процедуры Монте-Карловского типа для решения фазовой проблемы при низком разрешении; разработка и создание соответствующего программного обеспечения; тестирование метода с использованием объектов с известной структурой; применение разработанных методов к определению структуры рибосомной частицы T50S из Thermus thermophilus при разрешении порядка 40А.
Математическая суть фазовой проблемы состоит в том, что стандартный эксперимент по дифракции рентгеновских лучей (либо нейтронов или электронов) на кристаллических образцах позволяет
определить лишь модули _Fhk^l — комплексных коэффициентов (структурных
факторов) в разложении в ряд Фурье функции распределения электронной плотности в исследуемом кристалле:
РХ, y, z□□ □ Fhkl expUnhkl |]xpQ- 2Di(hx □ ky □ lzЩ (1)
hkl
При этом значения фаз _^hkl — остаются неизвестными, делая невозможным прямой расчет функции распределения электронной плотности. Здесь
7
(к, у, z □ - относительные координаты точки в базисе, образованном
периодами кристалла, а (h, к,l □ - целочисленные индексы. Теоретически
суммирование в (1) должно быть распространено на все целочисленные индексы, однако на практике используется конечный набор структурных факторов. Размеры использованного при расчете (1) набора структурных факторов принято характеризовать разрешением. При этом под разрешением,
соответствующим отдельному структурному фактору, понимается длина d “плоской волны”, отвечающей соответствующей гармонике Фурье
expn- 2П i (Ьк П ку П lz [Ц, а под разрешением dmin набора
структурных факторов - минимальное из разрешений для структурных факторов, входящих в набор.
Дополнительное предположение о том, что РРк,у,ZП не является
произвольной функцией, а может быть представлена как сумма вкладов отдельных атомов, позволяет получить соотношения (алгебраические и вероятностные) между значениями модулей и фаз структурных факторов. Эти соотношения лежат в основе методов расчета значений фаз для низкомолекулярных соединений. В последние годы эти методы были существенно развиты и позволяют в настоящее время при благоприятных обстоятельствах определять структуры небольших белков, содержащих до 1000 атомов в независимой части ячейки. Однако применимость этих методов к макромолекулярным объектам существенно ограничена размерами исследуемого объекта и необходимостью иметь в наличии набор экспериментальных данных очень высокого разрешения (лучше 1.0 А, что для белков является скорее исключением, чем правилом).
Основными подходами к решению фазовой проблемы в кристаллографии белка является использование изоморфного замещения, аномального рассеяния или известной атомной модели гомологичного белка. В первом из подходов ключом к решению фазовой проблемы являются различия в модулях структурных факторов, отвечающих исходному объекту и
8
полученному путем его химической модификации изоморфному производному. Во втором подходе оказываются существенными разности в величинах модулей специальных пар структурных факторов, которые возникают при наличии в исследуемом объекте аномальных рассеивателей. Оба эти эффекта убывают по мере роста размеров исследуемых объектов, поэтому их применение начинает встречать существенные сложности при попытках определения структуры больших макромолекулярных комплексов (например, таких, как рибосома и составляющие ее субъединицы). Поэтому существенное значение приобретает создание для макромолекулярной кристаллографии ab-initio методов решения фазовой проблемы. К этой группе относятся методы, использующие для расчета фаз лишь общие сведения об исследуемых объектах и ограничивающиеся экспериментальными данными, полученными в эксперименте с нативным объектом.
6
Задачей данного исследования являлась разработка процедуры прямого решения фазовой проблемы макромолекулярной кристаллографии при низком разрешении. Решение фазовой проблемы при низком разрешении подразумевает определение значений фаз для нескольких десятков коэффициентов Фурье (структурных факторов) в разложении в ряд Фурье искомой функции распределения электронной плотности в исследуемом объекте. Наличие такой информации делает возможным расчет соответствующей части ряда Фурье и позволяет получить сведения о локализации объекта в элементарной ячейке кристалла и его внешних очертаниях, что является стартовой точкой для процедур расширения и уточнения набора фаз.
В программу работы входило: исследование степени неоднозначности решения фазовой проблемы при низком разрешении и разработка примененных для этого исследования процедур кластерного анализа; разработка процедуры Монте-Карловского типа для решения фазовой проблемы при низком разрешении; разработка и создание соответствующего программного обеспечения; тестирование метода с использованием объектов с известной структурой; применение разработанных методов к определению структуры рибосомной частицы T50S из Thermus thermophilus при разрешении порядка 40А.
Математическая суть фазовой проблемы состоит в том, что стандартный эксперимент по дифракции рентгеновских лучей (либо нейтронов или электронов) на кристаллических образцах позволяет
определить лишь модули _Fhk^l — комплексных коэффициентов (структурных
факторов) в разложении в ряд Фурье функции распределения электронной плотности в исследуемом кристалле:
РХ, y, z□□ □ Fhkl expUnhkl |]xpQ- 2Di(hx □ ky □ lzЩ (1)
hkl
При этом значения фаз _^hkl — остаются неизвестными, делая невозможным прямой расчет функции распределения электронной плотности. Здесь
7
(к, у, z □ - относительные координаты точки в базисе, образованном
периодами кристалла, а (h, к,l □ - целочисленные индексы. Теоретически
суммирование в (1) должно быть распространено на все целочисленные индексы, однако на практике используется конечный набор структурных факторов. Размеры использованного при расчете (1) набора структурных факторов принято характеризовать разрешением. При этом под разрешением,
соответствующим отдельному структурному фактору, понимается длина d “плоской волны”, отвечающей соответствующей гармонике Фурье
expn- 2П i (Ьк П ку П lz [Ц, а под разрешением dmin набора
структурных факторов - минимальное из разрешений для структурных факторов, входящих в набор.
Дополнительное предположение о том, что РРк,у,ZП не является
произвольной функцией, а может быть представлена как сумма вкладов отдельных атомов, позволяет получить соотношения (алгебраические и вероятностные) между значениями модулей и фаз структурных факторов. Эти соотношения лежат в основе методов расчета значений фаз для низкомолекулярных соединений. В последние годы эти методы были существенно развиты и позволяют в настоящее время при благоприятных обстоятельствах определять структуры небольших белков, содержащих до 1000 атомов в независимой части ячейки. Однако применимость этих методов к макромолекулярным объектам существенно ограничена размерами исследуемого объекта и необходимостью иметь в наличии набор экспериментальных данных очень высокого разрешения (лучше 1.0 А, что для белков является скорее исключением, чем правилом).
Основными подходами к решению фазовой проблемы в кристаллографии белка является использование изоморфного замещения, аномального рассеяния или известной атомной модели гомологичного белка. В первом из подходов ключом к решению фазовой проблемы являются различия в модулях структурных факторов, отвечающих исходному объекту и
8
полученному путем его химической модификации изоморфному производному. Во втором подходе оказываются существенными разности в величинах модулей специальных пар структурных факторов, которые возникают при наличии в исследуемом объекте аномальных рассеивателей. Оба эти эффекта убывают по мере роста размеров исследуемых объектов, поэтому их применение начинает встречать существенные сложности при попытках определения структуры больших макромолекулярных комплексов (например, таких, как рибосома и составляющие ее субъединицы). Поэтому существенное значение приобретает создание для макромолекулярной кристаллографии ab-initio методов решения фазовой проблемы. К этой группе относятся методы, использующие для расчета фаз лишь общие сведения об исследуемых объектах и ограничивающиеся экспериментальными данными, полученными в эксперименте с нативным объектом.
1. Продемонстрировано, что применяемые в кристаллографии методы контроля точности определения фаз при низком разрешении имеют статистический характер: наилучшие значения контрольных критериев не соответствуют в точности наилучшим наборам фаз, однако имеется корреляция между значениями рассмотренных критериев качества и действительной точностью значений фаз.
2. Разработана и реализована компьютерная процедура Монте-Карловского типа для просмотра всех потенциально возможных решений фазовой проблемы при низком разрешении и их фильтрации в соответствии с выбранными критериями отбора.
3. Предложена базирующаяся на методах кластерного анализа процедура выделения из отфильтрованных на предыдущем этапе работы вариантов небольшого числа кластеров близких решений, дающих альтернативные решения фазовой проблемы.
4. Предложены и реализованы методы сравнительного тестирования различных вариантов решения фазовой проблемы, основанные на максимизации обобщенного правдоподобия и использовании топологических характеристик изучаемого объекта.
5. Проведено тестирование разработанной методики на данных нейтронного рассеяния для комплекса тРНК синтетазы с тРНК.
6. Разработанная методика применена к определению структуры рибосомной частицы T50S из Thermus thermophilus при разрешении 40А.
2. Разработана и реализована компьютерная процедура Монте-Карловского типа для просмотра всех потенциально возможных решений фазовой проблемы при низком разрешении и их фильтрации в соответствии с выбранными критериями отбора.
3. Предложена базирующаяся на методах кластерного анализа процедура выделения из отфильтрованных на предыдущем этапе работы вариантов небольшого числа кластеров близких решений, дающих альтернативные решения фазовой проблемы.
4. Предложены и реализованы методы сравнительного тестирования различных вариантов решения фазовой проблемы, основанные на максимизации обобщенного правдоподобия и использовании топологических характеристик изучаемого объекта.
5. Проведено тестирование разработанной методики на данных нейтронного рассеяния для комплекса тРНК синтетазы с тРНК.
6. Разработанная методика применена к определению структуры рибосомной частицы T50S из Thermus thermophilus при разрешении 40А.



