,

Биоинспирированная методология искусственного обоняния

  1. Обычные, все сразу подходы Сначала мы проанализировали данные обучения, используя два подхода «все...

Обычные, все сразу подходы

Сначала мы проанализировали данные обучения, используя два подхода «все сразу», которые широко использовались для распознавания аналитов в предыдущих исследованиях чувствительности: анализ основных компонентов (PCA) и иерархический кластерный анализ (HCA). 8 , 9 , 20 - 22 Мы использовали PCA для визуализации многомерных данных матрицы датчиков (16 датчиков × 350 температур). 23 Отклики многомерного датчика были спроецированы на первые два или три измерения, определяемые первыми несколькими собственными векторами (отсортированными по наибольшему собственному значению) ковариационной матрицы отклика, которая фиксирует большую часть дисперсии в наборе данных. Мы нормализовали реакцию каждого датчика на его максимальное значение проводимости, чтобы получить прогнозы PCA, которые способствуют разделению аналитов независимо от их концентраций. показывает проекцию отклика массива датчиков 5600 на различные обучающие аналиты по первым трем основным компонентам. Каждая точка представляет отклик датчика на конкретный аналит. Как ясно видно, отклики сенсоров на данный аналит хорошо сгруппированы. Однако аналиты, которые имеют перекрывающиеся химические свойства (например, одну и ту же функциональную группу), необязательно группируются вместе для образования сверхскоплений. Кроме того, отклики на сухой воздух не образуют единого, четко определенного кластера, что указывает на смещение отклика датчика во времени даже в течение периода обучения. Эта изменчивость реакции датчика на образцы сухого воздуха делает надежное обнаружение некоторых аналитов, таких как СО, бензол и этан, чрезвычайно трудным.

Эта изменчивость реакции датчика на образцы сухого воздуха делает надежное обнаружение некоторых аналитов, таких как СО, бензол и этан, чрезвычайно трудным

Обычные, универсальные подходы к классификации обучающих данных. (a) PCA, проекция данных обучения по трем основным направлениям, которые учитывают максимальную дисперсию. Каждая сфера представляет одно измерение на этапе обучения. Цвет однозначно определяет аналит, которому сенсорная матрица была подвергнута воздействию во время измерения: темно-зеленый, толуол; светло-зеленый, бензол; темно-желтый, пропан; светло-желтый, этан; темно-синий, метилэтилкетон; голубой, ацетон; темно-красный, метанол; светло-красный, этанол светло-серый, сухой воздух, голубой, вода; темно-серый, СО; черный, CO2. (б) HCA тех же данных, используя среднее значение ответа в каждом аналите. (c) Диаграмма рассеяния PCA, показывающая как данные обучения, так и данные тестирования по трем основным направлениям дисперсии данных обучения.

Чтобы количественно оценить взаимосвязь между различными тренировочными аналитами, мы выполнили HCA, используя средний отклик матрицы датчиков [ G ′ S1 T1,…, G ′ S1 T350,…, G ′ S16 T1,…, G ′ S16 T350] для каждый аналит, где индекс относится к датчику и температурным показателям. Евклидово расстояние было использовано для оценки сходства образцов. Средние попарные расстояния между всеми образцами в двух разных кластерах были использованы для оценки их сходства. Этот анализ показан в. Более подробный анализ, использующий каждое измерение, а не только среднее измерение в каждом аналите, представлен в Вспомогательная информация, рисунок S-4 ; это включает разброс ответов и, таким образом, может быть более показательным для разделения или совпадения между различными аналитами. Каждое введение сухого воздуха между двумя аналитами усреднялось отдельно для изучения изменчивости во времени. Подобно результатам PCA, аналиты, которые имеют общие химические свойства, не обязательно были похожи друг на друга. Например, средняя реакция этанола была больше похожа на реакцию двух кетонов (метилэтилкетон, ацетон), чем на реакцию метанола. Бензол и толуол были сгруппированы с этаном и пропаном соответственно. При более высоких концентрациях реакция метанола была аналогична реакции ацетона, тогда как при более низких концентрациях она напоминала реакцию пропана. Взятые вместе, эти результаты анализа PCA и HCA показывают, что данные обучения не были упорядочены каким-либо образом на основе составляющих их химических характеристик. Что еще более важно, эти результаты также предполагают, что прогнозирование химического состава нового аналита на основе этих тренировочных измерений было бы крайне маловероятным с использованием традиционных подходов распознавания.

Еще одна проблема, которая критически влияет на производительность подходов «все за один раз», - дрейф отклика датчика. показывает реакцию матрицы датчиков на этапах обучения и тестирования, спроецированных вдоль основных направлений отклонения данных обучения. Несмотря на использование дифференциального показания отклика датчика для компенсации линейной составляющей дрейфа, эффект старения датчика является катастрофическим. Тестовые образцы сильно смещены по сравнению с обучающими образцами, и распознавание во время фазы тестирования даже тех аналитов, которые повторяются из обучающего набора, весьма маловероятно при использовании подхода PCA.

Разделяй и властвуй подход

В отличие от традиционных подходов, мы используем внутреннюю иерархическую структуру химического пространства, разбивая проблему восприятия на ряд более простых подзадач. Для этого приложения каждая из подзадач основана на химической структуре и функционализации аналитов, поскольку они играют важную роль во взаимодействиях сенсора и аналита. Построенная таким образом иерархия показана на рис. Схема перекликается с вдохновением биологических систем, так как начальный уровень определяет широкие химические классы (что позволяет обобщение), прежде чем постепенно перейти к более конкретным классификациям (что требуется для идентификации). Требование к такому подходу состоит в том, что датчики должны демонстрировать повторяемое поведение, которое коррелирует не только с конкретным аналитом, но также с конкретными композиционными характеристиками, которые являются общими для целых классов аналитов. показан пример такого поведения, обнаруженного с помощью металлооксидных датчиков, использованных в этом исследовании: область необработанных данных с аналогичным профилем проводимости в зависимости от температуры для всех алканов и ароматических соединений, другой профиль для всех кетонов и третий профиль для всех спиртов.

Разделяй и властвуй подход к классификации данных обучения. (а) Иерархия, используемая для классификации аналитов, присутствующих в данных обучения. (б) Область необработанных данных от датчика 1 с аналогичной характеристикой проводимости и температуры для всех четырех алканов и ароматических соединений, отдельный профиль для обоих кетонов и третий профиль для обоих спиртов. Цвет линии представляет аналит, присутствующий во время измерения, используя тот же цветовой код, что и в. Хотя это трудно различить, между 7 и 10 перекрывающимися линиями каждого цвета нанесены повторяющиеся измерения. Представленные данные представляют менее 2% от общего набора данных микрочипов.

Чтобы разрешить химическую идентичность, мы начнем с простой задачи обнаружения событий, которая отличает ни одно событие (сухой воздух) от двух типов химических событий: присутствие органики или присутствие простого оксида. Для выполнения этой задачи обнаружения событий мы выбираем подмножество сенсорных функций, которое обеспечивает максимальную дискриминацию между выборками этих трех различных категорий и в то же время показывает низкую дисперсию между членами одной и той же группы. Выбор функции основан на их измененной t -статистике: 23

где µi и σi - среднее значение и стандартное отклонение всех измерений от конкретного датчика при определенной температуре в аналитах химического класса i , а µj и σj - соответствующие значения в аналитах химического класса j . Для каждой проблемы категоризации в рамках подхода «разделяй и властвуй» были выбраны только те особенности данных с максимальной t- статистикой (для категоризаций, включающих более двух химических классов, использовалась средняя попарная сепарабельность).

Используя такой метод распознавания, мы обнаружили, что такие виды, как бензол, которые было трудно обнаружить с помощью универсальных подходов (см.), Могут быть легко идентифицированы. Кроме того, каждая категория имеет большое и разнообразное членство, что, как мы покажем позже, позволяет обобщать за пределы аналитов обучающего набора. Для построения последующих уровней иерархии подкатегории дополнительно делятся на основе более специфических химических характеристик. Каждый раз для классификации используются только обучающие данные, собранные в аналите (-ах), принадлежащих к этой конкретной подкатегории, исключая из рассмотрения все данные, собранные для других аналитов. В пределах этого сокращенного набора обучающих данных определяются характеристики датчика с максимальной t -статистикой для достижения желаемого различия.

В качестве примера показаны 56 точек данных с поправкой на дрейф ( G ') с максимальной t- статистикой, всего 1% от общего собранного, для группировки органики в те, которые содержат или не содержат кислород; Наилучшие данные для группировки тех, которые содержат кислород в спирте или кетоне, показаны в; и, наконец, лучшие данные для группировки спиртов в метанол или этанол показаны на рис. Обратите внимание, что для каждого уровня дискриминации используются данные из ограниченных подмножеств рабочих температур в нескольких избранных датчиках. Вспомогательная информация Рисунок S-5 показывает данные о проводимости с поправкой на дрейф, собранные во время фазы обучения для каждого датчика при каждой температуре, и указывает, для каждого вопроса в иерархии, используется ли этот элемент данных для ответа на этот вопрос.

Необработанные данные с поправкой на дрейф, используемые для различных задач классификации. Для каждой задачи данные представляют 1% точек данных с максимальной t -статистикой. Цвет линии представляет аналит, присутствующий во время измерения, используя тот же цветовой код, что и в. (а) Разделение органических веществ на те, которые содержат или не содержат кислород. Для простоты показаны только данные, собранные при концентрациях аналита 3 мкмоль / моль. (б) Категоризация кислородсодержащих органических веществ на спирты или кетоны. (c) Категоризация спиртов в метанол или этанол.

Количество функций, выбранных для каждого вопроса, является важным параметром, который влияет на успех техники. Важно отметить, что распределение t -статистик по характеристикам сенсора критически зависит от сложности задачи классификации. Вспомогательная информация Рисунок S-6 показывает распределение t -статистики для каждого вопроса в иерархии. Для более общих задач на более высоких уровнях иерархии группировки химических видов довольно рыхлые. Например, члены группы простых оксидов, СО, СО2 и Н2О, не имеют особенно схожей химии. Следовательно, вероятность обнаружения признаков, которые позволяют этим химическим веществам объединяться и в то же время отличать их от других органических групп, является низкой. С другой стороны, для более конкретных задач дискриминации на нижних уровнях иерархии (например, метанол против этанола) членство в классах очень хорошо определено, и поэтому эти отдельные аналиты могут быть легко различены с очень немногими оптимальными характеристиками. Таким образом, как подробно описано в Вспомогательная информация, таблица S-1 В нашем подходе мы использовали больше возможностей для начальных вопросов и меньше возможностей для последующих вопросов.

В качестве упрощенной стратегии мы также проанализировали наши данные, используя постоянное количество функций на всех уровнях иерархии. Путем систематического изменения количества выбранных функций мы находим пиковый уровень производительности при использовании ≈10% от общего количества функций для каждого шага в иерархии. При использовании менее 10% функций мы обнаружили, что было много ошибочных классификаций для самой первой задачи (простой оксид против сухого воздуха против органики). Это ожидалось, так как химические группы на этом уровне недостаточно четко определены по сравнению с более низкими уровнями, и для решения этой проблемы требуется больше возможностей. При использовании более 10% функций производительность классификации снова упала, так как были включены менее важные функции (особенно на более низких уровнях). Это подробно описано в Вспомогательная информация Рисунок S-7 ,

Многошаговый подход использует только те функции, которые обеспечивают оптимальное разделение между поднаборами аналитов. Ограничивая анализ откликами сенсоров, которые с высокой степенью повторяемости в пределах группы аналитов и которые обеспечивают максимальную различимость между различными группами аналитов, устойчивость к дрейфу неявно включается в подход. показывает характеристики сенсора, выбранные из данных обучения, используемых для классификации спиртов по сравнению с кетонами, измеренных на этапах обучения и тестирования. показывает соответствующие функции датчика для классификации этанола по сравнению с метанолом. показывает обобщенность этого подхода и далее демонстрирует, что надежное распознавание отдельных аналитов также возможно. Стабильность характеристик датчика, выбранных из обучающих данных с использованием модифицированной t- статистики, демонстрирует, как наш подход выбора характеристик уменьшает дрейф, даже если общий профиль отклика датчика значительно изменился.

(а) Реакция сенсорно-температурных характеристик, которые были выбраны из обучающих данных, чтобы отличить спирты от кетонов. Обе тренировки и тестовые измерения показаны. (b) Аналогичный график, показывающий реакцию датчиков и температурных характеристик, выбранных для различения этанола от метанола (данные по тестированию этанола отсутствуют, поскольку этанол не входил в набор тестов).

Данные с поправкой на дрейф с этапа тестирования, включая новые аналиты и данные, повторенные из обучающего набора, были классифицированы с использованием иерархической схемы, построенной на основе обучающих данных. Данные были классифицированы с использованием k- ближайшего соседа 23 основанный на евклидовом измерении расстояния по выбранным признакам ( k = 3; значения k от 1 до 9 показали почти идентичные результаты). схематически показывает результаты, точечный цвет указывает на химическую группу. показывает успех или неудачу в классификации каждого измерения на этапе испытаний. За исключением этана, единственная неправильная классификация была в течение очевидных задержек распознавания во время первых одного или двух измерений после введения или удаления некоторых аналитов. В отличие от обучающих данных, где введение и удаление аналитов были явно известны, ничего не предполагалось из тестовых данных. Таким образом, хотя в обучающих данных переходные измерения были удалены вручную, это не было сделано для тестовых данных и является вероятной причиной этих переходных ошибочных классификаций. Этан нельзя было отличить от сухого воздуха на этапе испытаний. Вполне вероятно, что датчики были недостаточно чувствительны к этану, относительно нереакционноспособной молекуле, чтобы преодолеть дрейф, вызванный в процессе старения. Несмотря на эти трудности, общий показатель успешности в категоризации тестовой фазы, включая новые аналиты и повторяющиеся с фазы обучения, составил 87%. Новые спирты и кетоны были успешно классифицированы почти каждый раз.

Иерархическая категоризация тестовых данных. (а) Графическое представление прохождения каждого измерения по иерархии. Семейство химических веществ аналита, присутствующего во время измерения, имеет цветовую кодировку: серый, сухой воздух; голубой, простой оксид; красный, алкоголь; синий, кетон; желтый, алкан; и зеленый, ароматический (обратите внимание, что на стадии испытаний не использовались простые оксиды). (б) Диаграмма точности размещения каждого измерения в соответствующей категории: зеленое поле, правильное размещение; красный, неправильное размещение. Аналиты, не включенные в фазу обучения, отмечены звездочкой. Порядок воздействия аналита во время фазы тестирования такой, как показано, начиная слева направо, а затем сверху вниз.

Как могут обрабатываться неизвестные аналиты в схеме? В наших оценках мы остановились на уровнях определения функциональной группы тестируемых аналитов. Мы добавляем в данные тестирования, собранные при представлении новых спиртов. В то время как «тренировочные» и «тестовые» измерения метанола очень близки друг к другу в пространстве ближайшего соседа, два новых спирта (1-пропанол, 2-пропанол) находятся между двумя известными спиртами (метанол, этанол) и с некоторыми ошибочными классификациями, могут быть признаны как неизвестные (то есть пропанолы будут классифицироваться как неизвестные спирты, а не ошибочно идентифицироваться как метанол или этанол), устанавливая порог для измерения расстояния.

(а) Реакция сенсорно-температурных характеристик, которые были выбраны из данных обучения, чтобы отличить этанол от метанола. Показаны как тренировочные, так и тестовые измерения (включая все три спирта, измеренные в фазе теста: метанол, 1-пропанол и 2-пропанол). (б) Реакция сенсорно-температурных характеристик, которые были выбраны из обучающих данных для различения 30 нмоль / моль метанола против 3 мкмоль / моль метанола против 10 мкмоль / моль метанола. Показаны как тренировочные, так и тестовые измерения (взятые при 3 мкмоль / моль).

Точно так же, как различные концентрации аналита могут быть обработаны в схеме? Информация о концентрации может быть получена путем добавления в иерархию окончательного, самого низкого уровня для этой цели. показывает сенсорные характеристики, выбранные из данных обучения, использованных для классификации 30 нмоль / моль метанола по сравнению с 3 мкмоль / моль метанола против 10 мкмоль / моль метанола, как измерено во время обучения (сплошные линии) и фаз тестирования (пунктирные линии). Концентрация во время фазы тестирования составляла 3 моль / моль метанола, и, как видно, тестовая концентрация была правильно определена. Нормализация не требовалась, поскольку в температурных спектрах имеются как инвариантные, так и зависимые от концентрации признаки. Концентрационно-инвариантные характеристики использовались на более высоких уровнях, а концентрационно-зависимые характеристики использовались для количественного определения концентраций.

Способность распознавать запахи, прошедшие тренировку или поведенческие запахи, и обобщать их на новые запахи, основанные на химическом сходстве с известными запахами, являются важными проблемами, с которыми сталкиваются как биологические, так и искусственные химические сенсорные системы. Несмотря на то, что аналитические требования этих задач расходятся друг с другом, биологическая система демонстрирует удивительную способность справляться с этими проблемами. Какая стратегия обработки сигналов, используемая обонятельной системой, позволяет ей надежно решать эти аналитические проблемы? физиологический 15 и поведенческие 24 исследования показывают, что биологическое обоняние использует время как дополнительное измерение кодирования для разделения этих задач: начальное грубое, обобщаемое представление уточняется с течением времени, добавляя дополнительные функции, которые позволяют более тонкую дискриминацию. Этот подход «разделяй и властвуй» контрастирует с традиционными монолитными подходами, применяемыми в искусственном обонянии, где не делается различий между обобщением и проблемами распознавания. В то время как подходит для высоко ортогональных данных, где аналиты упорядочены на основе составляющих их химических свойств, 9 На эффективность таких подходов существенно влияют реакции сенсора с низким отношением сигнал / шум и высокой изменчивостью из-за старения сенсора (см.). Что еще более важно, эти подходы не способны исследовать наличие желаемой организации химического пространства и, следовательно, не имеют гибкости для настройки для конкретного применения.

Мы обнаружили, что значительная часть успеха подхода «разделяй и властвуй» для смягчения ошибок из-за дрейфа объясняется следующим: (а) подразделение проблемы на ряд задач распознавания, каждая из которых включает только подмножество аналитов, и (б) независимый выбор характеристик высокого отношения сигнал-шум для каждой задачи. Мы заметили, что использование всех характеристик отклика датчика для каждого вопроса приводит к снижению общей успешной классификации на 31% для данных испытаний (подавляющее большинство успехов было сухим воздухом). Вспомогательная информация, рисунок S-8 показывает классификацию тестовых данных с использованием иерархии без выбора признаков.

Насколько гибок выбор группировок в иерархии? Чтобы проверить, может ли различение между любыми двумя группами быть подзадачей в иерархии, мы определили две группы: A (этанол, ацетон, пропан, толуол) и B (метанол, метилэтилкетон, этан, бензол). Эти группировки были сделаны таким образом, что нет никаких химических признаков, которые отличают одну группу от другой. показывает, что даже лучшие характеристики, выбранные из данных обучения для этих групп, показывают значительный разброс в каждой группе и отсутствие разделения между группами. Это можно сравнить с тем, что является более химически логичной категоризацией для того же набора аналитов. Этот тест подразумевает, что характеристики данных, выбранные во время более разумной классификации, относятся к повторяемым химическим взаимодействиям между датчиками и специфическим химическим свойствам аналитов. Кроме того, способность находить эти повторяемые взаимодействия для нескольких уровней иерархии показывает, что химическая информация на нескольких уровнях абстракции доступна из температурных спектров хеморезисторов на основе оксидов металлов. Хотя представляется невозможным использовать этот метод для классификации аналитов по произвольным группам, использование альтернативной или множественной иерархии не исключается. Например, схема, основанная на длине углеродной цепи, может быть полезна при классификации исследуемых аналитов.

Например, схема, основанная на длине углеродной цепи, может быть полезна при классификации исследуемых аналитов

1% дрейфа скорректировал исходные данные с максимальной t -статистикой для классификации органики в группу A (этанол, ацетон, пропан, толуол) или B (метанол, метилэтилкетон, этан, бензол). Цвет линии представляет аналит, присутствующий во время измерения, используя тот же цветовой код, что и в.

Как могут обрабатываться неизвестные аналиты в схеме?
Точно так же, как различные концентрации аналита могут быть обработаны в схеме?
Какая стратегия обработки сигналов, используемая обонятельной системой, позволяет ей надежно решать эти аналитические проблемы?
Насколько гибок выбор группировок в иерархии?