Модели активированного ила на перекрестке искусственного интеллекта - взгляд на достижения в области моделирования процессов

2025-11-03

Искусственный интеллект и ил. Теория


В начале 1980-х гг. Номер модели активированного ила 1 (ASM1)Десятилетний опыт применения этих моделей и демонстрация их эффективности при проектировании и эксплуатации очистных сооружений позволили нам достичь предела сложности и точности их применения.

Хорошим примером является N2Несмотря на множество расширений АОМ, предложенных для описания динамики производства на заводах по производству активного ила, эти модели все еще слишком сложны и не проверены. В данной статье представлено новое видение развития моделирования процесса путем явного включения в модели активного ила информации о микробном сообществе, измеренной с помощью молекулярных данных.

В этой новой области исследований мы предлагаем использовать синергию между богатыми молекулярными данными, полученными с помощью передовых технологий секвенирования генов, и их интеграцией с инженерными моделями процессов и искусственным интеллектом. Это междисциплинарная область исследований, которая объединяет две отдельные области экологической биотехнологии для работы с сообществами моделирования и инженеров, чтобы обеспечить новое понимание и основанное на моделях проектирование будущих устойчивых водоочистных сооружений.

Введение


Очистка сточных вод - это сложный процесс, в котором используется сочетание физических, химических и биологических операций для удаления загрязняющих веществ до достаточного качества перед сбросом в окружающую среду.

 С момента открытия процесса активного ила водоочистные сооружения эксплуатируются уже более 100 лет, в результате чего на практике было реализовано множество зрелых технологий и технологических концепций. 

Сегодня сектор очистки сточных вод становится свидетелем растущего числа инициатив (например, цифровая вода, взаимосвязь воды и энергии, циркулярная экономика, нехватка воды и ухудшение ее качества из-за появления новых загрязнителей, таких как микрозагрязнители, и изменения климата).

Эти мощные инициативы должны коренным образом изменить базовую концепцию водоочистных сооружений.

Например, сточные воды больше не воспринимаются как проблема, а все чаще рассматриваются как потенциальный ресурс, из которого можно извлечь воду, энергию и питательные вещества.

Кроме того, выбросы парниковых газов, связанные с энергетикой, химической промышленностью и технологическими процессами (особенно N2O) необходимо учитывать на очистных сооружениях. В настоящее время при проектировании и эксплуатации очистных сооружений используются передовые методы и эвристические подходы, которые дополняются использованием моделей процессов для моделирования и оценки различных альтернатив.

В этой связи внедрение модели активированного ила № 1 (ASM1) в начале 1980-х годов позволило нам получить десятилетний опыт калибровки и применения модели, а также продемонстрировать ее зрелость для применения при проектировании и эксплуатации электростанций.

Однако эти модели достигли своего предела в плане сложности и точности применения и не могут всесторонне описать параметры работы процесса.

Это необходимо для реализации всего потенциала цифровизации, позволяющего осуществлять проектирование на основе моделей и, как следствие, устойчивое функционирование WWTP. Поэтому мы считаем, что в сообществе специалистов по моделированию и проектированию очистки сточных вод необходимо радикально изменить фундаментальную природу моделирования прогрессивных процессов.

Центральная гипотеза этого нового видения основана на следующей предпосылке.

(1) Существует твердое убеждение, что одни только данные не могут содержать достаточно информации для создания полезных моделей для цифровых приложений.

(2) Только текущая механическая модель не позволяет оценить значение N2Невозможно учесть возникающие проблемы устойчивости растений, такие как динамика О. В отличие от социальных наук/средств массовой информации, которые на самом деле очень богаты данными (большой объем/высокая достоверность). Данные инженерных систем, таких как водоочистные сооружения, которые проектируются и эксплуатируются для обеспечения надежной и стабильной работы, имеют ограниченный объем информации (качество и количество) по сравнению с объемом данных в социальных сетях.

Поэтому необходимо в полной мере использовать предыдущие научные и инженерные знания, которые хорошо обобщены в механистических моделях. Создание передовых прогнозных моделей для цифрового применения в водоочистных сооружениях требует междисциплинарного подхода, при котором глубокие знания о процессе сочетаются с глубоким обучением на основе данных о процессе.

В рамках этой исследовательской концепции мы предлагаем впервые включить молекулярные данные о микробных сообществах непосредственно в модели процессов. Современные молекулярные инструменты для измерения микробных сообществ (относительное обилие видов)

Однако эти ценные данные никогда не использовались непосредственно для моделирования процессов. Ниже мы изложим и расширим факты, указывающие на существующие проблемы и ограничения моделей активного ила (АИ), на то, почему они не могут быть обеспечены только аналитикой больших данных, и на необходимость междисциплинарных исследований для продвижения будущего активного ила. Моделирование.

Научная перспектива


Процесс активного ила является наиболее распространенной технологией на очистных сооружениях. Исследования по проектированию и эксплуатации систем активного ила традиционно поддерживаются двумя сообществами.

операционные таксономические единицы (OTUs), метатранскриптомика, протеомика, метаболомика и т.д.) для поддержки микробных сообществ, ответственных за удаление питательных веществ в растениях (кто они и что они делают), и (b) сообщества по проектированию, моделированию и контролю процессов, которые работают в сочетании с моделями процессов и основываются на существующих данных о процессах (например, фракции ХПК в поступающей воде (SS, XS, SI и XI), азот (NH4 , NO3 , NO2 -N, TKN), PO4, Разработка и проверка новых моделей и технологий для поддержки проектирования и эксплуатации электростанций (TP, MLSS, VSS, BOD и т.д.).

Эти многомерные данные, собранные в разных масштабах (микромасштаб на уровне микробных сообществ и макро/глобальные данные о процессах на уровне растений), несомненно, дополняют друг друга для понимания процессов, но на сегодняшний день эти два многомасштабных и разнообразных набора данных о процессах еще предстоит интегрировать и совместно интерпретировать.

Например, микробное сообщество, лежащее в основе биологических преобразований в водоочистных сооружениях и, следовательно, являющееся ключевым фактором эффективности работы предприятия (от качества азота, фосфора и ХПК сточных вод до связанных с процессом выбросов парниковых газов), не было прямо/прямо включено в модель.

С другой стороны,17 . Это развитие привело к появлению N2Исследуя новые процессы для понимания путей, ответственных за выбросы О, мы добились более глубокого понимания фундаментальной роли и функций микробных сообществ не только в лаборатории, но и в полномасштабных водоочистных сооружениях18 . 

Однако эти ценные данные не были интегрированы в технологические приложения, и это остается большим пробелом в 2020-х гг. Одна из причин этого заключается в том, что используемые в настоящее время системы моделирования недостаточно гибкие для интеграции таких гетерогенных молекулярных данных для различных микробных сообществ.

ASM как технология, способствующая проектированию водоочистных сооружений


Современная парадигма проектирования и эксплуатации технологических процессов в значительной степени основывается на знаниях экспертов и поддерживается коммерческими симуляторами процессов, которые могут оценивать и моделировать широкий спектр конфигураций процессов. Фактически, для поддержки современных инженерных решений модели и симуляции процессов являются необходимыми инструментами, которые широко используются в сообществе.

 Для моделирования процессов широкое распространение получили и широко используются модели ASM, которые (например, ADM1, ASM1, ASM2d, Biowin ® models, SUMO ® models и т.д.) являются механистическими и обеспечивают значительные преимущества при решении проектных и эксплуатационных задач. Кроме того, были предложены инструменты поддержки принятия экологических решений на основе знаний и моделей.

Она помогает инженерам-конструкторам разрабатывать/перестраивать процессы, чтобы улучшить свою работу. Однако у нее все еще есть два фундаментальных недостатка.

(1) Ограничения существующих механических моделей: технологические модели, которые поддерживают оценку решений WWTP, не могут учитывать важный показатель устойчивости/эффективности предприятия, а именно выбросы N2O.

(2) Биологические сообщества отвечают за первичную трансформацию и удаление загрязняющих веществ, но не учитываются/интегрируются в практику проектирования технологических процессов, начиная с эксплуатации и заканчивая проектированием.

Валидация и проблемы сложности с ASM

В частности, в области моделирования процессов современные научные исследования позволяют создавать все более сложные и специализированные модели. 

Рисунок 1 показывает постоянный интерес к исследованиям с использованием этих моделей. Эти модели, которые в основном основаны на расширении моделей ASM для описания эффективности удаления азота, фосфора и ХПК на заводах, не подходят для проектирования процессов и оперативного применения из-за сложности численного расчета и проблем с валидацией.

Проблема валидации возникает отчасти из-за заданной структуры модели, а также из-за доступных данных о процессе, используемых для оценки параметров модели (которые ограничены). В нескольких исследованиях систематически анализировалась возможность идентификации таких моделей.

Рассматривая типичные данные о растениях, собранные в ходе интенсивных измерительных кампаний, включая наши собственные исследования, мы показали, что из более чем 60 параметров модели лишь небольшое число (подмножество из 6-10 параметров) может быть однозначно оценено по данным.

Они уже были распознаны в протоколе калибровки. Остальные параметры модели должны быть фиксированными или предполагаемыми при применении этих моделей для моделирования станции активного ила.

Хотя неопределенность в параметрах модели может быть учтена и могут быть сделаны проектные и эксплуатационные оценки, ключевым вопросом остается определение диапазона неопределенности параметров модели, которые демонстрируют широкий диапазон изменчивости, как исследовано в Sin et al.

Валидация и проблемы сложности с ASM

Область исследований метагеномики изучает геномный анализ микробной ДНК в экологических сообществах и стремительно развивается в последние 5-10 лет, став одной из самых горячих научных областей с более чем 16 000 научных статей, индексируемых в Scopus (рис. 1 и 2).

- Эта область принесла значительные достижения в области микробной экологии, эволюции и разнообразия, предоставив ученым инструменты для метагеномного скрининга на основе секвенирования, которые позволяют идентифицировать микроорганизмы в образцах без предварительного знания того, что в них содержится, и находят применение в медицине, экологии, микробной экологии, микробиологии и инженерии сточных вод (рис. 2).

Среди этих методов - флуоресцентная гибридизация in situ (FISH) - малопроизводительный метод, который можно использовать для поиска интересующих генов в ДНК с целью идентификации конкретных микроорганизмов.

Количественная ПЦР (qPCR) чувствительна и количественна, в ней используется флуоресцентный краситель для контроля амплификации целевой ДНК, поэтому за один раз можно исследовать только несколько микроорганизмов.

Секвенирование 16S рибосомальной РНК, с другой стороны, нацелено на ген 16S рРНК, который обладает высокой видовой специфичностью и присутствует у большинства микроорганизмов, что делает его быстрой и недорогой альтернативой для идентификации и классификации бактерий.

Помимо секвенирования, характеристика метатранскриптома (с помощью секвенирования мРНК) позволяет преодолеть недостатки анализа на основе метагеномной ДНК, позволяя различать экспрессированные и неэкспрессированные гены, что отражает истинную метаболическую активность.

Он дороже, но получаемые данные более информативны и позволяют моделировать количественную метаболическую активность.

AI и осадок

Одна из причин, лежащих в основе проблемы валидации и неопределенности модели, заключается в том, что эти модели используют кинетику Монода для описания микробного роста.

Теоретические исследования идентифицируемости уже были проведены в 1982 году Хольмбергом.

В простом зольном реакторе периодического действия, который уже использовался для измерения активности биомассы (например, измерение субстрата во времени), идеальное измерение (без шума) не является однозначной оценкой урожайности, максимальной скорости роста и концентрации биомассы.

Позже измерения дыхания и титрования, использованные Петерсеном и др. для определения активности нитрифицирующих образцов активного ила, подтвердили тот же вывод: вместо уникального параметра можно однозначно определить только комбинацию параметров, например, ((4,57-YA)/YA*μmax* X )). Важное замечание по поводу этого вывода состоит в том, что X (мгКОД/л) - это параметр партии, определяемый для представления активной части группы микроорганизмов, включенных в эксперимент.

Например, в исследовании активности оксида азота X - это для XAOO и XNOO классифицированный как.

Представляет организмы, окисляющие аммиак, и организмы, окисляющие нитриты, соответственно.

Эти примеры можно распространить и на другие группы микроорганизмов в активном иле, такие как денитрифицирующие гетеротрофные организмы, организмы, накапливающие фосфор, и организмы, накапливающие гликоген, все из которых гипотетически моделируются с единицами мг ХПК/л в качестве переменной состояния.

В конечном счете, эти различные части биомассы косвенно определяются с помощью полномасштабных измерений соответствующих тестовых наборов активности партии или обычного моделирования с помощью модели.

Обратите внимание на иронию в том, что биологическое сообщество представлено как псевдопараметр модели. В реальности же не существует прямого способа их измерения.

Поэтому не существует независимой экспериментальной процедуры для подтверждения смоделированных значений этих частей биомассы, отвечающих за различные функции в растении, без принятия допущений и коэффициентов пересчета (например, соотношение VSS и ХПК и т.д.).

Вместо этого, эти доли биомассы косвенно определяются на основе моделирования измеренной активности и биомассы (например, через истощение NH).

4 -N соотношение при тестировании партии с нитрифицирующим активным илом). Даже при идеальных измерениях активности расчетные значения этих коэффициентов все равно связаны с параметрами урожайности и максимальной скорости роста в модели (как обсуждалось выше в Holmberg 35 и Petersen et al. 37).

Если сообщество моделистов использует При использовании XПопытка описать соответствующую деятельность в водоочистных сооружениях, биологические сообщества, изучаемые в этом процессе, использовать современные методы молекулярного зондирования (например, метагеномику, qPCR, FISH и т.д.) для определения организмов (филогении), их относительной численности и активности.

Например, многие загрязняющие вещества, присутствующие в поступающем стоке (NH4-N - COD и т.д.) в мета-транскриптомическом анализе экспрессии белковых генов.

Рост объема данных метагеномики и что с этим делать

Область исследований метагеномики изучает геномный анализ микробной ДНК в экологических сообществах и стремительно развивается в течение последних 5-10 лет, став одной из самых горячих научных областей с более чем 16 000 научных статей, индексируемых в Scopus (рис. 1). . и 2)

- Значительные достижения в области микробной экологии, эволюции и разнообразия.

В этой области ученые получили инструменты для метагеномного скрининга на основе секвенирования, которые позволяют идентифицировать микроорганизмы в образцах без предварительного знания того, что они содержат, что дает возможность сделать важные открытия в медицине, экологии, микробной экологии, микробиологии и инженерии сточных вод (рис.2).

Среди этих методов - флуоресцентная гибридизация in situ (FISH) - малопроизводительный метод, который можно использовать для поиска интересующих генов в ДНК с целью идентификации конкретных микроорганизмов.

Количественная ПЦР (qPCR) чувствительна и количественна, в ней используется флуоресцентный краситель для контроля амплификации целевой ДНК, поэтому за один раз можно исследовать только несколько микроорганизмов.

Секвенирование 16S рибосомальной РНК, с другой стороны, нацелено на ген 16S рРНК, который обладает высокой видовой специфичностью и присутствует у большинства микроорганизмов, что делает его быстрой и недорогой альтернативой для идентификации и классификации бактерий.

Помимо секвенирования, характеристика метатранскриптома (с помощью секвенирования мРНК) позволяет преодолеть недостатки анализа на основе метагеномной ДНК, позволяя различать экспрессированные и неэкспрессированные гены, что отражает истинную метаболическую активность.

Это дороже.

Однако полученные данные являются более информативными, позволяя моделировать количественную метаболическую активность.

Обработка осадка сточных вод AI

Мы были пионерами в применении этих методов к системам активного ила для очистки сточных вод и предложили исследовательскому сообществу помочь нам понять, какие организмы присутствуют в активном иле и что они там делают.

Используя технологию секвенирования гена 16S рРНК в сочетании с анализом микробного разнообразия, мы выявили основное сообщество микроорганизмов, активно присутствующих в активном иле.

Применение этих методов позволяет получить очень полную информацию о многовековом процессе активного ила.

Интеграция этих новых знаний о частоте и разнообразии этих микробных сообществ с их динамическими профилями в пространстве и времени позволит нам определить N2Она может помочь в количественном моделировании фундаментальных явлений в процессах очистки сточных вод, таких как выбросы O. Одним из возможных способов интеграции этих молекулярных данных (метагеномики) с математическими моделями на основе ODE является использование методов искусственного интеллекта, таких как глубокое обучение.

Недавнее применение ДНС в различных областях, от проектирования изделий/материалов до моделирования свойств и процессов, показало, что нейронный ИИ превосходит все остальные при работе с широким спектром/различными источниками данных, особенно в виде текста, изображений и спектральных данных.

Кроме того: ни АОМ, ни модели ИИ

В этой новой области исследований мы призываем к изучению и синергетической интеграции биологических данных с первопринципными моделями систем активного ила и машинным обучением (ML) в области искусственного интеллекта.

На самом деле, следует отметить, что то, что мы предлагаем здесь, само по себе не ново, и гибридное моделирование широко изучалось для различных приложений. Например, гибридное моделирование в химической инженерии (кристаллизация, сушка, измельчение, полимеризация) и биохимической инженерии (моделирование различных процессов ферментации, в основном от грибов до бактерий, дрожжей и культур клеток млекопитающих) и водоподготовки.

Первоначальная мотивация для гибридного моделирования заключается в улучшении прогнозов первопринципной модели для исправления ошибок/неопределенностей, присутствующих в балансе массы и энергии, рассчитанном механической моделью.

Предлагаются различные варианты параметрических гибридных моделей, например, параллельные, последовательные и множественные комбинации. Гибридные модели также часто используются для прогнозирования сложных технологических явлений.

В противном случае их очень сложно описать механически (например, образование кека в установках поперечной фильтрации или скорость/динамика образования продуктов в процессах ферментации). Применение гибридных моделей в сточных водах изучалось для обеих отраслей промышленности.и очистные сооружения бытовых сточных вод.

Например, интеграция ANN-модели для изучения биологических кинетических показателей на основе данных процесса в механической (ASM2d) модели с использованием параллельных комбинаций, аналогично применению расширенного фильтра Калмана для изучения ХПК сточных вод, NH4 и PO4Для улучшения прогнозирования -3 авторы использовали ряд комбинаций, моделирующих погрешность механической модели (ASM3g-Eawag) с помощью нейросетевой модели. EKF учится на ошибках модели.

Хотя эти модели давали возможность улучшить соответствие данным (модель 2, коэффициент детерминации), но и его применение, например, для контроля и управления технологическими процессами.

Что еще более важно, они не смогли смоделировать кинетические скорости, связанные с более сложными явлениями, такими как, например, элиминирование P. Эти предыдущие исследования показывают, что даже гибридное моделирование с использованием только данных о процессе само по себе не является решением проблемы. Для их объяснения необходимы полные данные о процессе.

Пример, приведенный в этом перспективном документе, N2Что касается моделирования О, было предложено множество расширений модели ASM с несколькими различными механизмами (например, модели с одним путем и двумя путями - модели пути денитрификации AOB и модели пути неполного окисления гидроксиламина), химическими превращениями и т.д.

Благодаря множеству введенных параметров эти модели могут соответствовать данным по N 2 O, собранным за определенный период времени во время калибровки (т.е. путем точной настройки или подгонки подмножества параметров модели).

Тем не менее, такие модели использовались, например, Мампаем и др. в работе N2Скорость эмиссии O на 42%, которая легко фальсифицируется при сравнении с другими наборами данных, которые не использовались при калибровке.

Например, на рисунке 3 представлена схема, помогающая визуализировать производительность модели между калибровочными и валидационными наборами данных, как это было продемонстрировано в исследовании Mampaey et al.

На практике существующие математические модели априори не знают, какие метаболические пути вносят доминирующий вклад, и поэтому не могут предсказать содержание N2Коэффициенты выбросов O могут не поддаваться количественному учету.

Большинство городских очистных сооружений имеют более низкий уровень NO2 в следующем примере.

Уровни (значительно ниже 30 мгН/л), где неудача моделей особенно заметна. В некотором смысле, расширенные модели увеличили количество параметров, которые необходимо оценивать по одним и тем же измерениям активности, что усугубляет существующие проблемы идентифицируемости этих моделей. Это делает их переносимость и общую применимость к проектированию и эксплуатации процессов трудной и непредсказуемой, а значит, невозможной.

С другой стороны, применение ML к данным о процессах также было осуществлено с использованием методов кластеризации на основе PCA. 57 Этот N2Было показано, что с его помощью можно определить рабочие ситуации, которые вызывают выбросы O.

N с использованием машин с опорными векторами (SVM) в качестве технологии ML2

Перекрестная валидация, даже при описании наборов данных, полученных на относительно простых реакторах пилотного масштаба R2 остается низким, но может учитывать выбросы O. В нашей собственной работе с DNN 59 мы обнаружили, что перекрестная валидация тестовых данных из 2 Использование сети глубокого обучения (DNN) с высокой точностью до 0,9, N2O, и мы также продемонстрировали, что можно объяснить.

Хотя эти модели полезны для проведения анализа чувствительности исходных данных, основная проблема заключается в том, что эти модели, основанные исключительно на данных, не подходят для проектирования и эксплуатации процессов.

Просто благодаря этой модели, основанной на данных, N2 изменения/сезонные колебания выбросов N2O. Короче говоря, ни механические модели, ни модели искусственного интеллекта (ML) сами по себе не могут предсказать выбросы N2O Утверждает, что данные не могут быть объяснены прогностически.

AI и осадок

Предложение решения: междисциплинарная область исследований для развития моделирования процессов на водоочистных сооружениях

Поэтому мы считаем, что N 2 O, как и в случае с выбросами CO2, заключается в том, что ни самих данных, ни существующих механистических моделей недостаточно для разработки прогностических моделей для решения возникающих проблем устойчивости.

Мы считаем, что эти модели не дают предсказательного описания системы из-за отсутствия интеграции данных, непосредственно связанных с составом и активностью микробного сообщества.

Одна из возможных стратегий решения этой проблемы заключается в использовании ML-моделей, которые обрабатывают биологические данные (например, метагеномику) в качестве входных и другие соответствующие технологические данные (например, NO3 , NO2 и NH4 ) для учета выбросов N O через баланс массы для модели механического процесса. Эта стратегия проиллюстрирована на рисунке 4.

В данном случае нас интересует параметризация, например, данных о генных последовательностях и их подгонка к моделям ML (таким как прямые нейронные сети (DNN), CNN и GAN, среди прочих). Многочисленные исследования в области методов искусственного интеллекта и теории графов показали возможность извлечения информации из двумерных и трехмерных химических структур (т. е. выбор признаков) и процессов в DNN для предсказания некоторых интересующих нас свойств (например, биоразлагаемости различных соединений).

Кроме того, он используется в синтезе новых материалов, таких как цеолиты.

На практике разработка этих новых технологий, управляемых ИИ, потребует масштабных исследовательских усилий. Здесь мы призываем к междисциплинарному сотрудничеству в рамках всего сообщества для решения некоторых открытых и фундаментальных вопросов о том, как добиться продуманного объединения и интеграции источников данных и возможностей знаний.

Прежде всего, помогает ли интеграция биологических данных (например, метагеномики, мета-транскриптомики, qPCR, FISH и т.д.) с помощью ML с машинными моделями достичь эффективности прогнозирования (тестовые данные, а также калибровочные/обучающие данные)?

Каков оптимальный дизайн гибридного подхода к интеграции (параллельный или последовательный, мультипликативный или встроенный со скоростью формирования N) для достижения прогностической эффективности (тестовые данные, а также данные калибровки/обучения) с помощью ML с механическими моделями?

Каков оптимальный дизайн гибридного подхода к интеграции (параллельный или последовательный, мультипликативный или встроенный со скоростью формирования N) для достижения прогностической эффективности (тестовые данные, а также данные калибровки/обучения) с помощью ML с механическими моделями?

Каков оптимальный дизайн гибридного подхода к интеграции (параллельный или последовательный, мультипликативный или встроенный, при скорости формирования N)?2O, на уровне рода активная часть биомассы разных групп связана с механической моделью для баланса массы и т.д.).

Прежде всего, какова эффективная интеграция данных, ML и механических моделей для цифровых приложений?

Какие конкретные данные метагеномики полезны для каких целей моделирования?

Следует ли мне использовать метагеномику или метаболомику (данные об экспрессии белков) и для каких целей моделирования?

Осадок сточных вод AI

Данные, полученные с помощью молекулярных зондов, очень неоднородны и дороги в сборе, что обычно приводит к созданию наборов данных гораздо меньшего размера, чем можно использовать для других задач ML.

Такие наборы данных часто нуждаются в функционализации, или, как ее еще называют, инженерии функций - процессе использования знаний о предметной области данных для создания функций, которые помогают алгоритмам ML лучше обучаться.

В предложенной на рисунке 4 концепции гибридного моделированияПоэтому извлечение признаков будет ключевым этапом, который необходимо исследовать и разработать для извлечения полезных и релевантных признаков, чтобы преобразовать молекулярные/метагеномные данные с растений с активным илом в форму, подходящую для современных алгоритмов машинного/глубокого обучения.

В более широкой литературе извлечение признаков является быстро развивающейся и важной областью, в которой уже появилось несколько успешных методов, таких как расширенный отпечаток связности, кулоновские матрицы, тканевая функционализация и свертка графов. В зависимости от выбранной функционализации для молекулярных наборов данных предлагаются различные типы ML-моделей, такие как нейронные сети с передачей сообщений (MPNN), глубокие тензорные нейронные сети (DTNN), направленные ациклические графы (DAG) и графовые сверточные сети.

Функционализация на основе графов и нейронные сети в последнее время вызывают значительный исследовательский интерес в области хемоинформатики и биоинформатики благодаря их превосходной производительности в задачах молекулярного ОД, как показано в недавней литературе. Например, молекулярное представление пар аминокислотных остатков на основе пространственных графов было использовано для построения программы искусственного интеллекта, разработанной компанией DeepMind, которая AlfaFold 61 может выполнять предсказание трехмерной структуры белков с гораздо большей точностью, чем раньше.

Аналогичным образом, взаимодействие и метаболические функции микроорганизмов, присутствующих в системах активного ила, и их влияние на такие показатели работы очистных сооружений, как выбросы N2O, можно изучать с помощью функционализации на основе графов, полученных из данных метагеномики, включая нейронные сети конволюционного типа, но не ограничиваясь ими.

Эти сети уже нашли применение при классификации данных метагеномики с использованием отцовского расстояния, определяемого как мера близости в филогенетическом дереве.

Таким образом, эти модели можно исследовать для установления связи между метаболической активностью микроорганизмов на клеточном уровне и воздействием, измеряемым на уровне технологической установки. Для этого потребуются специфические знания в области микробиологии активного ила, например, как различные N2Для этого требуется сочетание генетических последовательностей ключевых ферментов, участвующих в метаболизме пути производства О (например, восстановление нитритов до NO (опосредованное ферментом NirK), NO до N).

Сформулируйте/определите уникальные характеристики для модели графовой нейронной сети (GCNN) и извлеките соответствующие характеристики/информацию в качестве входных данных для концепции гибридной модели активного ила, представленной на рисунке 4.

Этот шаг является именно тем мостом, который соединяет знания и опыт в области экологической биотехнологии и ее геномные данные с сообществом инженеров/моделистов и их моделями. Помимо создания гибкой структуры моделирования, включающей геномные данные, этот подход к моделированию на основе нейронов позволяет устранить критическое ограничение существующих моделей.

Действительно, основной недостаток существующих моделей заключается в том, что метаболические пути предполагаются априори, а соответствующая структура модели формулируется для калибровки параметров модели, которые затем фиксируются и применяются ко всем очистным сооружениям.

Новый гибридный подход к моделированию использует данные метагеномики для определения того, какие пути действительно присутствуют/активированы, а какие нет, и N2 которые способствуют доминирующей микробной активности.

O феноменов, чтобы обеспечить достоверность модели для каждого очистного сооружения, к которому она применяется, и соответствие базовому составу и изменчивости микробного сообщества.

Поэтому в будущем необходимо разработать методологию нейронного ИИ, адаптированную к потребностям и области метагеномических данных, для использования в области моделирования активного ила.

Учитывая недавние достижения и успешное применение GCNN для предсказания химических свойств, генеративных адверсарных сетей (GAN) для проектирования материалов, а также GANN/реинформационного обучения для поиска лекарств в широкой литературе, эта междисциплинарная область имеет все шансы заложить основу для новой области исследований.

Это обеспечивает богатую интеллектуальную базу для совершенствования моделирования (динамического, стационарного и мета/замещающих моделей) и разработки новых цифровых приложений на основе моделей, особенно для устойчивого функционирования водоочистных сооружений.

Безусловно, необходимо объединить усилия с коллегами из области экологических биотехнологий (технологии высокопроизводительного секвенирования генов), сообществ, занимающихся проектированием и моделированием сточных вод, а также прикладных компьютерных наук для анализа искусственного интеллекта/больших данных.

Заключение

ASM стал бесценным инструментом, который помог нам разработать концепцию, спроектировать и эксплуатировать множество очистных сооружений.

Мы утверждаем, что целесообразно вывести эту область на новый уровень, используя междисциплинарный исследовательский подход, сочетающий новые методы ИИ для извлечения характеристик и информации из нетрадиционных гетерогенных источников данных, увеличивая их доступность и разнообразие.

Большие данные, особенно данные метагеномики, никогда ранее не использовались для моделирования процессов. Однако необходимо провести множество исследований, чтобы использовать подходы ML для интеграции биологических молекулярных данных. 

Благодаря нашему усовершенствованному подходу, основанному на биологических явлениях, мы ожидаем, что сможем генерировать ранее неизвестные решения по проектированию, эксплуатации и управлению для удовлетворения растущих потребностей водоочистных сооружений в новых областях исследований.

Центробежный дегидратор : Ярлыки