인공지능과 슬러지. 이론
1980년대 초에 활성화된 슬러지 모델 번호 1(ASM1)이 도입되면서 이러한 모델을 적용하고 폐수 처리 플랜트의 설계 및 운영에 대한 성숙도를 입증하는 데 있어 10년 동안의 경험이 생겼습니다. 그러나 이러한 모델은 복잡성 및 애플리케이션 정확도와 관련하여 한계에 도달했습니다.
적절한 사례는 N2O를 설명하기 위해 제안된 ASM의 많은 확장에도 불구하고 활성화된 슬러지 플랜트의 생산 역학, 이러한 모델은 여전히 너무 복잡하고 아직 검증되지 않았습니다. 이 관점의 논문은 활성 슬러지 모델에서 분자 데이터로 측정된 미생물 군집에 대한 정보를 명시적으로 통합하여 공정 모델링을 발전시키는 새로운 비전을 제시합니다.
이 새로운 연구 분야에서 우리는 고급 유전자 시퀀싱 기술의 풍부한 분자 데이터와 프로세스 엔지니어링 모델과 인공 지능을 통한 통합 간의 시너지 효과를 활용할 것을 제안합니다. 이는 환경 생명 공학이라는 두 가지 개별 분야가 힘을 합쳐 모델링 및 엔지니어링 커뮤니티와 협력하여 미래의 지속 가능한 WWTP에 대한 새로운 이해 및 모델 기반 엔지니어링을 수행할 수 있도록 하는 학제간 연구 영역입니다.
소개
폐수 처리는 수용 환경으로 배출되기 전에 오염 물질을 충분한 품질로 제거하기 위해 물리적, 화학적 및 생물학적 단위 작업의 조합을 사용하는 복잡한 프로세스입니다.
WWTP는 활성화된 슬러지 공정의 발견 이후 100년 이상 사용되어 왔으며 , 이로 인해 많은 성숙한 기술과 공정 개념이 실제로 구현되었습니다.
오늘날 폐수 처리 부문은 점점 더 많은 이니셔티브(예: 디지털 물, 물-에너지 연계, 순환 경제, 물 부족 및 미량 오염 물질, 기후 변화와 같은 새로운 오염 물질로 인한 수질 악화)를 목격하고 있습니다.
이러한 강력한 이니셔티브는 WWTP의 기본 개념을 근본적으로 변경하도록 설정되어 있습니다.
예를 들어 폐수는 더 이상 문제로 인식되지 않고 점차 물, 에너지 및 영양분을 회수할 수 있는 잠재적 자원으로 인식되고 있습니다.
또한 에너지, 화학 물질 및 공정 관련 온실 가스 배출(특히 N2O) WWTP에서 고려할 필요가 있습니다. 현재 처리장의 설계 및 운영은 모범 사례 및 휴리스틱 접근 방식에 의존하며, 이는 다양한 대안을 시뮬레이션하고 평가하기 위해 프로세스 모델을 사용하여 보완됩니다.
이와 관련하여 1980년대 초 활성 슬러지 모델 1호(ASM1)의 도입으로 모델을 보정 및 적용하고 발전소의 설계 및 운영에 적용할 수 있는 성숙도를 입증하는 데 10년 동안의 경험이 생겼습니다.
그러나 이러한 모델은 복잡성과 애플리케이션 정확도 측면에서 한계에 도달했으며 프로세스 성능 매개변수를 포괄적으로 설명할 수 없습니다.
이는 모델 기반 엔지니어링을 실현하고 결과적으로 지속 가능한 WWTP 운영을 달성하기 위한 디지털화의 전체 잠재력을 실현하는 데 필수적입니다. 따라서 우리는 폐수 처리 모델링 및 엔지니어링 커뮤니티에서 프로세스 모델링을 발전시키는 근본적인 특성의 급격한 변화가 필요하다고 생각합니다.
이 새로운 비전의 중심 가설은 다음 전제를 기반으로 합니다.
(1) 데이터만으로는 디지털 응용 프로그램에 유용한 모델을 달성하기에 충분한 정보가 포함되어 있지 않을 수 있다는 강한 확신이 있습니다.
(2) 현재의 기계적 모델만으로는 특히 N2O 역학과 같은 식물의 새롭게 떠오르는 지속 가능성 문제를 설명할 수 없습니다 . 실제로 데이터가 매우 풍부한 사회 과학/미디어와 달리(높은 볼륨/높은 진실성). 안정적이고 안정적인 성능을 제공하도록 설계되고 운영되는 WWTP와 같은 엔지니어링 시스템의 데이터는 소셜 미디어의 데이터 양 규모에 비해 정보(질 및 양)가 제한적입니다.
따라서 기계론적 모델에 잘 요약된 이전의 과학 및 공학 지식을 최대한 활용할 필요가 있습니다. WWTP의 디지털 애플리케이션을 위한 고급 예측 모델을 생성하려면 심층적인 프로세스 지식이 프로세스 데이터의 딥 러닝과 결합되는 다분야 접근 방식이 필요합니다.
이 연구 개념을 통해 우리는 처음으로 미생물 군집에 대한 분자 데이터를 프로세스 모델에 직접 포함하는 것이 가능할 것이라고 제안합니다. 미생물 군집을 측정하는 최신 분자 도구(종의 상대적 풍부함)
그러나 이러한 귀중한 데이터는 프로세스 모델링에 직접 사용된 적이 없습니다. 아래에서 활성 슬러지 모델(ASM)의 현재 과제와 한계를 지적하고 빅 데이터 분석만으로는 제공할 수 없는 이유와 활성 슬러지의 미래를 발전시키기 위한 학제간 연구 영역의 필요성을 제시하는 증거를 간략하게 설명하고 확장합니다. 모델링.
과학적 관점
활성 슬러지 공정은 폐수 처리장에서 가장 일반적으로 사용되는 기술입니다. 활성 슬러지 시스템의 설계 및 운영에 대한 연구는 전통적으로 두 커뮤니티에서 지원됩니다.
운영 분류학 단위(OTU), 메타 전사체학, 단백질체학, 대사체학 등) 식물에서 영양분 제거를 담당하는 미생물 군집(그들이 누구이며 무엇을 하는지)을 뒷받침하는 연구, 그리고 (b) 공정 설계, 모델링 및 통제 공동체공정 모델과 함께 작동하고 기존 공정 데이터(예: 유입수 COD 분율(SS, XS, SI 및 XI), 질소(NH4 , NO3 , NO2 -N, TKN), PO4, TP, MLSS, VSS, BOD 등) 발전소의 설계 및 운영을 지원하는 새로운 모델과 기술을 개발하고 검증합니다.
서로 다른 규모에서 수집된 이러한 다차원 데이터(미생물 군집 수준의 마이크로 규모 대 식물 수준의 거시적/전체 규모의 공정 데이터)는 공정을 이해하는 데 분명히 보완적이지만 현재까지 이 두 가지 다규모 및 다양한 범위의 공정 데이터는 아직 통합되고 공동으로 해석됩니다.
예를 들어, 미생물 군집은 WWTP의 생물학적 전환을 뒷받침하고 따라서 플랜트 성능의 핵심(배출 질소, 인 및 COD 품질에서 공정 관련 GHG 배출에 이르기까지) 모델에 명시적으로/직접 포함되지 않았습니다.
반면에,17 . 이러한 발전으로 인해 Anammox에서 N2O 배출의 원인이 되는 경로를 이해하는 새로운 프로세스를 연구할 때실험실뿐만 아니라 전체 규모의 WWTP18에서도 미생물 군집의 근본적인 역할과 기능을 이해하는 데 더 깊이 있는 통찰력이 생겼습니다 .
그러나 이러한 귀중한 데이터는 프로세스 엔지니어링 애플리케이션에 통합되지 않았으며, 이는 2020년대에도 여전히 큰 격차로 남아 있습니다. 그 이유 중 하나는 현재 사용되는 모델링 프레임워크가 서로 다른 미생물 군집에 대한 이러한 이질적인 분자 데이터를 통합하는 데 유연하지 않기 때문입니다.
WWTP 설계를 위한 구현 기술로서의 ASM
현재 공정 설계 및 운영 패러다임은 고도의 공정 전문가 지식 중심이며 다양한 공정 구성을 평가하고 시뮬레이션할 수 있는 상용 공정 시뮬레이터에 의해 지원됩니다. 실제로 현재 엔지니어링 솔루션을 지원하기 위해 프로세스 모델과 시뮬레이션은 커뮤니티에서 널리 사용되는 필수 도구입니다.
프로세스 모델링의 경우 ASM이 널리 성공하고 광범위하게 사용되었습니다. 이러한 모델(예: ADM1, ASM1, ASM2d, Biowin ® 모델, SUMO ® 모델 등)은 기계적이며 설계 및 작동 문제에 상당한 이점을 제공했습니다. 또한 지식 기반 및 모델 기반 환경 의사 결정 지원 도구가 제안되었습니다.
작업 개선을 위한 프로세스 설계/개조를 위해 설계 엔지니어를 지원합니다. 그러나 여전히 두 가지 근본적인 단점이 있습니다.
(1) 현재 기계 모델의 한계: WWTP 솔루션의 평가를 뒷받침하는 프로세스 모델은 플랜트의 중요한 지속 가능성 지표/성능, 즉 N2O 배출량을설명할 수 없습니다.
(2) 생물학적 공동체는 오염 물질의 주요 변형 및 제거에 책임이 있지만 운영에서 설계 작업에 이르기까지 프로세스 엔지니어링 관행에 포함/통합되지 않습니다.
ASM의 검증 및 복잡성 문제
특히, 프로세스 모델링 분야에서 현재 학술 연구는 점점 더 복잡하고 전문화된 모델을 생성하고 있다 .
그림1은 이러한 모델을 사용한 연구에 대한 지속적인 관심을 보여줍니다. 공장에서 질소, 인 및 COD 제거 성능을 설명하기 위해 대부분 ASM 모델의 확장을 기반으로 하는 이러한 모델은 수치적 복잡성과 검증 문제로 인해 공정 설계 및 운영 응용 프로그램에 적합하지 않습니다.
검증 문제는 모델의 주어진 구조뿐만 아니라 모델 매개변수 추정(제한적임)에 사용되는 사용 가능한 프로세스 데이터에서 부분적으로 발생합니다. 여러 연구에서 이러한 모델의 식별 가능성을 체계적으로 분석했습니다.
우리 자신의 연구를 포함하여 집중 측정 캠페인에서 수집된 전형적인 식물 데이터를 고려하여 60개 이상의 모델 매개변수 중에서 소수(6-10개의 매개변수 하위 집합)만이 데이터에서 고유하게 추정될 수 있음을 보여주었습니다.
교정 프로토콜에 의해 이미 인식되었습니다. 나머지 모델 매개변수는 활성 슬러지 플랜트를 시뮬레이션하기 위해 이러한 모델을 적용할 때 고정되거나 가정되어야 합니다.
모델 매개변수의 불확실성을 설명하고 설계 및 운영 평가를 수행할 수 있지만 Sin 등이 조사한 바와 같이 광범위한 변동성을 나타내는 모델 매개변수의 불확실성 범위를 정의하는 것과 관련하여 핵심 문제가 남아 있습니다.
ASM의 검증 및 복잡성 문제
metagenomics의 연구 분야는 환경 공동체에서 미생물 DNA의 게놈 분석을 조사하며 지난 5-10년 동안 빠르게 성장하여 Scopus에 16,000개 이상의 연구 논문이 색인되어 가장 뜨거운 과학 분야 중 하나가 되었습니다(그림 1) . 및 2 )
– 미생물 생태, 진화 및 다양성에 상당한 진보를 가져옴 . 이 분야는 과학자들에게 샘플에 포함된 내용에 대한 사전 지식 없이도 샘플에서 미생물을 식별할 수 있는 시퀀싱 기반 메타게놈 검사 도구를 제공하여 의학, 환경 과학, 미생물 생태학, 미생물학, 및 폐수 공학(그림2).
이러한 기술 중 FISH(Fluorescence in situ hybridization)는 특정 미생물을 식별하기 위해 DNA에서 특정 관심 유전자를 찾는 데 사용할 수 있지만 처리량이 적은 기술입니다.
정량적 PCR(qPCR)은 민감하고 정량적이며 형광 염료를 사용하여 표적 DNA의 증폭을 모니터링합니다. 따라서 한 번에 몇 개의 미생물만 평가할 수 있습니다.
한편, 16S 리보솜 RNA 시퀀싱은 종 특이성이 높고 대부분의 미생물에 존재하는 16S rRNA 유전자를 표적으로 합니다. 따라서 박테리아를 식별하고 분류할 수 있는 빠르고 저렴한 대안입니다.
시퀀싱 외에도 메타 전사체의 특성화(mRNA 시퀀싱 사용)는 발현된 유전자와 비발현된 유전자를 구별하여 실제 대사 활동을 반영할 수 있는 능력을 제공하여 metagenomic DNA 기반 분석의 단점을 극복합니다.
가격이 더 비쌉니다. 그러나 얻은 데이터는 정보가 더 풍부하여 정량화된 대사 활동을 모델링할 수 있습니다.
이 모델 검증 및 불확실성 문제에 대한 근본적인 이유 중 하나는 이러한 모델이 미생물 성장을 설명하기 위해 Monod 동역학을 사용하기 때문입니다.
Holmberg에 의해 1982년에 이미 수행된 이론적인 식별 가능성 연구.
이미 바이오매스 활동(예: 시간에 따른 기질 측정)을 측정하는 데 사용되는 간단한 회분식 반응기에서 주어진 완벽한 측정(노이즈 없음)이 수확량, 최대 성장 속도 및 바이오매스 농도의 고유한 추정은 불가능합니다.
나중에 Petersen et al. 질화 활성 슬러지 샘플의 활동에 대한 사용된 호흡 측정 및 적정 측정은 동일한 결론을 확인했습니다. 즉, 고유한 매개변수 대신 매개변수의 조합만 고유하게 식별할 수 있습니다(예: ((4.57-YA)/YA*μmax* X )). 이 결론에 대한 중요한 관찰은 X (mgCOD/L)가 실험에 포함된 미생물 그룹의 활성 부분을 나타내도록 정의된 일괄 매개변수라는 것입니다.
예를 들어, 질산화 활동 연구에서 X는 XAOO 및 XNOO 로 분류됩니다.
각각 암모니아 산화 유기체 및 아질산염 산화 유기체를 나타냅니다.
이러한 예는 활성화된 슬러지의 다른 미생물 그룹, 예를 들어 탈질 종속 영양 유기체, 인 축적 유기체, 글리코겐 축적 유기체로 확장될 수 있으며, 모두 상태 변수로서 단위 mg COD/L로 가정적으로 모델링됩니다.
결국 바이오매스의 이러한 다양한 부분은 해당 배치 활동 테스트 세트 또는 모델을 사용한 정상 시뮬레이션의 전체 규모 측정을 사용하여 간접적으로 추론됩니다.
여기에서 생물학적 군집이 모델의 의사 매개변수로 표현된다는 아이러니에 주목하십시오. 실제로는 이를 측정할 수 있는 직접적인 방법이 없습니다.
그러므로, 가정 및 변환 계수(예: VSS 대 COD 비율 등)를 만들지 않고 플랜트에서 다양한 기능을 담당하는 이러한 바이오매스 부분의 시뮬레이션 값을 검증하기 위한 독립적인 실험 절차가 없습니다.
대신, 바이오매스의 이러한 비율은 바이오매스의 측정된 활동에 대한 모델 기반 피팅에서 간접적으로 추론됩니다(예: NH 고갈을 통해).
질화 활성 슬러지를 사용한 배치 테스트 동안 4 -N 비율). 완벽한 활동 측정이 있더라도 이러한 비율의 추정 값은 여전히 모델의 생산량 및 최대 성장률 매개변수와 연결되어 있습니다(위에서 Holmberg 35 및 Petersen et al. 37에서 논의한 바와같이).
모델링 커뮤니티가 X를 사용하는 동안이 과정을 연구하는 생물학적 커뮤니티인 WWTP에서 상응하는 활동을 설명하려는 시도는 최신 분자 탐침 기술(예: 메타게노믹스, qPCR, FISH 등)을 사용하여 어떤 유기체(계통수), 상대적 풍부도 및 활동을 식별합니다.
예를 들어, 유입수에 존재하는 많은 오염 물질(NH4-N에서 COD 등으로)을 대사하는 meta-transcriptomics 분석에서 단백질 유전자의 발현.
메타게노믹스 데이터의 증가와 이에 대한 조치
metagenomics의 연구 분야는 환경 공동체에서 미생물 DNA의 게놈 분석을 조사하며 지난 5-10년 동안 빠르게 성장하여 Scopus에 16,000개 이상의 연구 논문이 색인되어 가장 뜨거운 과학 분야 중 하나가 되었습니다(그림1) . 및 2)
– 미생물 생태, 진화 및 다양성에 상당한 진보를 가져옴.
이 분야는 과학자들에게 샘플에 포함된 내용에 대한 사전 지식 없이도 샘플에서 미생물을 식별할 수 있는 시퀀싱 기반 메타게놈 검사 도구를 제공하여 의학, 환경 과학, 미생물 생태학, 미생물학, 및 폐수 공학(그림2).
이러한 기술 중 FISH(Fluorescence in situ hybridization)는 특정 미생물을 식별하기 위해 DNA에서 특정 관심 유전자를 찾는 데 사용할 수 있지만 처리량이 적은 기술입니다.
정량적 PCR(qPCR)은 민감하고 정량적이며 형광 염료를 사용하여 표적 DNA의 증폭을 모니터링합니다. 따라서 한 번에 몇 개의 미생물만 평가할 수 있습니다.
한편, 16S 리보솜 RNA 시퀀싱은 종 특이성이 높고 대부분의 미생물에 존재하는 16S rRNA 유전자를 표적으로 합니다. 따라서 박테리아를 식별하고 분류할 수 있는 빠르고 저렴한 대안입니다.
시퀀싱 외에도 메타 전사체의 특성화(mRNA 시퀀싱 사용)는 발현된 유전자와 비발현된 유전자를 구별하여 실제 대사 활동을 반영할 수 있는 능력을 제공하여 metagenomic DNA 기반 분석의 단점을 극복합니다.
가격이 더 비쌉니다.
그러나 얻은 데이터는 정보가 더 풍부하여 정량화된 대사 활동을 모델링할 수 있습니다.
폐수 처리에서 활성 슬러지 시스템에 이러한 방법을 적용하는 선구자였으며 연구 커뮤니티를 초대하여 활성 슬러지에 어떤 유기체가 존재하고 그곳에서 무엇을 하는지 이해하도록 했습니다.
미생물 다양성 분석과 함께 16S rRNA 유전자 시퀀싱 기술을 사용하여 활성 슬러지에 활발히 존재하는 미생물의 핵심 커뮤니티를 확인했습니다.
이러한 방법을 적용하면 수백 년 된 활성 슬러지 공정에 대한 매우 포괄적인 정보가 생성됩니다.
이러한 미생물 군집의 빈도와 다양성에 대한 이 새로운 지식과 공간 및 시간에 따른 동적 프로필을 통합하면 N2O 배출과 같은 폐수 처리 공정의 기본 현상에 대한 정량적 모델링을 지원할 수 있습니다 . 이러한 분자 데이터(metagenomics)를 ODE 기반 수학적 모델과 통합하는 한 가지 가능한 방법은 딥 러닝과 같은 인공 지능 기술을 활용하는 것입니다.
다양한 분야에서 DNN의 최근 응용제품/재료 설계에서 속성 및 프로세스 모델링에 이르기까지 신경 AI는 특히 텍스트, 이미지, 스펙트럼 데이터의 형태로 다양한 범위/이질적인 데이터 소스를 제시할 때 탁월함을 보여주었습니다.
그 이상: ASM도 AI 모델도 아님
이 새로운 연구 분야에서 우리는 활성 슬러지 시스템의 첫 번째 원칙 모델과 AI의 기계 학습(ML) 분기를 통해 생물학적 데이터의 연구 및 시너지 통합을 요구합니다.
사실, 여기서 우리가 제안하는 것은 그 자체로는 새로운 것이 아니며 다양한 응용 프로그램에 대해 광범위하게 연구된 하이브리드 모델링이 아니라는 점에 정당하게 주목됩니다. 예를 들어, 화학 공학(결정화, 건조, 밀링, 중합) 및 생화학 공학(주로 곰팡이에서 박테리아, 효모 및 포유류 세포 배양에 이르기까지 다양한 발효 공정 모델링)의 하이브리드 모델링과 수처리.
초기 하이브리드 모델링의 동기는 첫 번째 원리 모델의 예측을 개선하여 기계적 모델에 의해 계산된 질량 및 에너지 균형에 존재하는 오류/불확실성을 수정하는 것입니다.
다양한 파라메트릭 하이브리드 모델 설계, 예를 들어 병렬, 직렬 및 다중 조합이 제안됩니다. 하이브리드 모델은 복잡한 공정 현상을 예측하는 데에도 사용되는 경우가 많습니다.
그렇지 않으면 기계적으로 설명하기가 매우 어렵습니다(예: 교차 여과 장치의 케이크 형성 또는 발효 공정에서 제품의 형성 속도/역학). 폐수에서 하이브리드 모델 적용은 산업 모두에 대해 연구되었습니다.및 국내 폐수 처리 공장.
예를 들어 ANN 모델을 통합하여 병렬 조합을 사용하여 기계적(ASM2d) 모델의 프로세스 데이터에서 생물학적 운동 속도를 학습하는 반면 확장된 Kalman 필터의 적용과 유사하게 폐수 COD, NH4 및 PO4-3 의 예측을 개선하기 위해 신경망 모델을 사용하여 저자가 기계적 모델(ASM3g-Eawag)의 오류를 모델링한 일련의 조합을 사용했습니다. EKF는 모델의 오류로부터 학습합니다.
이러한 모델은 데이터에 대한 적합도를 개선할 가능성을 제시했지만(모델의 R 2, 결정 계수), 그러나 예를 들어 공정 제어 및 작동을 위한 적용.
더 중요한 것은, 예를 들어 P-제거와 같은 보다 복잡한 현상과 관련된 운동 속도를 모델링하지 못했다는 것입니다 . 이러한 이전 연구는 프로세스 데이터만 사용하고 하이브리드 모델링도 그 자체로는 답이 아님을 보여줍니다. 이를 설명하려면 포괄적인 프로세스 데이터가 필요합니다.
이 관점 논문에서 인용한 예인 N2O 모델링과 관련하여 몇 가지 다른 메커니즘(예: 단일 경로 대 두 경로 모델 – AOB 탈질화 경로 및 불완전 하이드록실아민 산화 경로 모델)을 가진 ASM 모델의 많은 확장, 화학적 전환 등)이 제안되었다.
이러한 모델은 도입된 많은 매개변수 덕분에 N 2 에 맞게 만들 수 있습니다.보정 중 특정 기간부터 수집된 O 데이터(즉, 모델 매개변수의 하위 집합을 미세 조정하거나 피팅하여).
그러나 이러한 모델은 예를 들어 Mampaey et al.에서 N2O 방출률을 42%까지 과소 평가하는 것과 같이 보정에 사용되지 않은 다른 데이터 세트에 직면할 때 쉽게 위조됩니다.
예를 들면. 그림3 에서는 Mampaey 등의 연구에서 입증된 대로 보정 및 검증 데이터 세트 간의 모델 성능을 시각화하는 데 도움이 되는 개략도를 제시합니다.
실제로 현재의 수학적 모델은 어떤 대사 경로가 지배적인 기여 요인인지 선험적으로 알지 못하므로 식물의 N2O 배출 요인을 정량적으로 설명하지 못할 수 있습니다.
대부분의 도시 폐수 처리장은 더 낮은 NO2 에서 작동한다는 점에 유의하십시오.
특히 모델의 실패가 두드러지는 수준(30 mgN/L보다 훨씬 낮음). 어떤 면에서 확장 모델은 동일한 활동 측정에서 추정해야 하는 매개변수의 수를 증가시켰고, 따라서 이러한 모델의 기존 식별 가능성 문제를 복잡하게 만들었습니다. 이로 인해 프로세스 설계 및 운영에 대한 이전 가능성 및 일반 적용 가능성이 어렵고 예측할 수 없기 때문에 불가능합니다.
한편, 프로세스 데이터의 ML을 사용하는 것도 적용되어 PCA 기반 클러스터링 기술 57 이 N2O 배출을 유발하는 운영 상황을 식별하는 데 사용될 수 있음을 보여주었습니다 .
ML 기술로 지원 벡터 머신(SVM)을 사용하는 N2
상대적으로 단순한 파일럿 규모 원자로의 데이터 세트를 설명하는 경우에도 교차 검증 R2 가 낮게 유지되지만 O 배출량을 설명할 수 있습니다. DNN 59를 사용하는 자체 작업에서 교차 검증 테스트 데이터에서 R 2 최대 0.9 의 높은 정확도로 딥 러닝 네트워크(DNN)를 사용하여 N2O 를 설명할 수 있는 가능성도 입증했습니다.
이러한 모델은 입력에 대한 민감도 분석을 수행하는 데 유용하지만 여기서 주요 문제는 이러한 순수한 데이터 기반 모델이 프로세스 설계 및 운영 목적에는 유용하지 않다는 것입니다.
단순히 이러한 데이터 기반 모델로 인해 N2 의 변화/계절 변동을 다시 예측하지 못합니다.오 배출. 요컨대, 기계적 모델이나 AI(ML) 모델만으로는 N2O 데이터 를 예측적으로 설명할 수 없다고 주장합니다 .
솔루션 제안: WWTP에서 공정 모델링을 발전시키기 위한 다분야 연구 분야
따라서 우리의 의견은 N 2 O 배출 에 대해 주장된 것처럼 새로운 지속 가능성 문제에 대한 예측 모델을 개발하기에는 데이터 자체나 현재의 기계론적 모델이 충분하지 않다는 것입니다.
미생물 군집의 구성 및 활동과 직접적으로 관련된 데이터의 통합 부족으로 인해 이러한 모델이 시스템을 예측적으로 설명하지 못한다는 것이 우리의 믿음입니다.
이 문제를 해결하기 위한 한 가지 가능한 전략은 생물학적 데이터(예: metagenomics)를 입력으로 처리하는 ML 모델과 기타 관련 프로세스 데이터(NO3 , NO2 및 NH4 에 대한 질량 균형 )를 통해 N O 배출을 설명하는 것입니다. 기계적 프로세스 모델. 이 전략은 그림4에 설명되어 있습니다.
여기서 우리는 예를 들어 유전자 시퀀스 데이터를 매개변수화하고 이를 ML 모델(DNN(순방향 신경망), CNN 및 GAN과 같은 , 무엇보다도). AI 기술 및 그래프 이론에 대한 많은 연구는 2D 및 3D 화학 구조(즉, 기능 선택) 및 DNN의 프로세스에서 정보를 추출하여 관심 있는 일부 속성(예: 다양한 화합물의 생분해성)을 예측할 수 있는 가능성을 보여주었습니다.)
또는 제올라이트와 같은 신소재 합성에 사용됩니다.
실제로 이러한 새로운 AI 기반 기술을 개발하기 위해서는 야심 찬 연구 노력이 필요합니다. 여기에서 우리는 데이터 소스와 지식 역량의 사려 깊은 융합 및 통합을 달성하는 방법에 대한 몇 가지 개방적이고 근본적인 질문을 해결하기 위해 커뮤니티 전반의 학제 간 협력을 요구합니다.
가장 먼저 기계 모델과 함께 ML을 통해 생물학적 데이터(예: metagenomics, meta-transcriptomics, qPCR, FISH 등)를 통합하면 예측 성능(보정/훈련 데이터뿐만 아니라 테스트 데이터)을 달성하는 데 도움이 됩니까?
하이브리드 통합 방식의 최적 설계는 무엇입니까(N의 형성 속도에서 병렬 대 직렬, 곱셈 대 임베디드 조합) ) 기계적 모델이 있는 ML을 통해 예측 성능(보정/훈련 데이터뿐만 아니라 테스트 데이터)을 달성하는 데 도움이 됩니까?
하이브리드 통합 방식의 최적 설계는 무엇입니까(N의 형성 속도에서 병렬 대 직렬, 곱셈 대 임베디드 조합) ) 기계적 모델이 있는 ML을 통해 예측 성능(보정/훈련 데이터뿐만 아니라 테스트 데이터)을 달성하는 데 도움이 됩니까?
하이브리드 통합 방식의 최적 설계는 무엇입니까(N의 형성 속도에서 병렬 대 직렬, 곱셈 대 임베디드 조합)2O, 속 수준에서 서로 다른 그룹의 바이오매스의 활성 부분은 질량 균형 등을 위한 기계적 모델과 연결되어 있습니다.)
무엇보다도 디지털 애플리케이션을 위한 데이터, ML 및 기계적 모델의 효율적인 통합은 무엇입니까?
어떤 특정 metagenomics 데이터가 어떤 모델링 목적에 유용합니까?
metagenomics 또는 metabolomics(단백질 발현 데이터)를 사용해야 하며 어떤 모델링 목적으로 사용해야 합니까?
분자 프로브 기술에서 추출한 데이터는 매우 이질적이고 수집하는 데 비용이 많이 들기 때문에 일반적으로 다른 ML 작업에 사용할 수 있는 것보다 훨씬 작은 데이터 세트가 생성됩니다.
이러한 데이터 세트에는 기능화가 필요한 경우가 많으며, 또는 데이터의 도메인 지식을 사용하여 ML 알고리즘이 더 잘 학습하도록 돕는 기능을 만드는 프로세스인 기능 엔지니어링으로 정의됩니다.
그림4의 하이브리드 모델링에 대한 제안된 비전에서따라서 특성 추출은 활성 슬러지 플랜트의 분자/메타게놈 데이터를 현재 머신/딥 러닝 알고리즘에 적합한 형태로 변환하기 위해 유용하고 관련된 특성을 추출하기 위해 연구 및 개발해야 하는 핵심 단계가 될 것입니다.
더 넓은 문헌에서 특징 추출 기술은 빠르게 발전하고 있으며 확장 연결성 지문, 쿨롱 매트릭스, 직조 기능화 및 그래프 컨볼루션과 같은 몇 가지 성공적인 기술을 이미 산출한 중요한 분야입니다. 선택한 기능화에 따라 메시지 전달 신경망(MPNN), 심층 텐서 신경망(DTNN), 방향성 비순환 그래프(DAG), 그래프 컨벌루션 네트워크와 같은 분자 데이터 세트에 대해 다양한 유형의 ML 모델이 제안됩니다.
그래프 기반 기능화 및 신경망은 최근 문헌에서 볼 수 있듯이 분자 ML 작업에 대한 우수한 성능으로 인해 화학 정보학 및 생물 정보학에서 최근 상당한 연구 관심을 받았습니다 . 예를 들어, 아미노산 잔기 쌍의 공간 그래프 기반 분자 표현을 통해DeepMind에서 개발한 AI 프로그램인 AlfaFold 61은 이전보다 훨씬 더 정확하게 3D 단백질 구조 예측을 수행할 수 있습니다.
유사하게, 활성 슬러지 시스템에 존재하는 미생물의 상호 작용 및 대사 기능과 이들이 N2 와 같은 처리장 성능 지표에 미치는 영향O 방출은 metagenomics 데이터에서 추출한 그래프 기반 기능화를 사용하여 연구할 수 있으며 이에 따라 컨볼루션 유형 신경망을 포함하되 이에 국한되지 않습니다.
이러한 네트워크는 계통 발생 트리에서 근접성 척도로 정의된 부성적 거리를 사용하여 metagenomics 데이터를 분류하는 용도를 이미 발견했습니다.
따라서 이러한 모델은 미생물의 세포 수준 대사 활동과 공정 플랜트 수준에서 측정된 영향 사이의 연결을 설정하기 위해 탐색될 수 있습니다. 이러한 노력에는 활성화된 슬러지 미생물학의 영역별 지식, 예를 들어 서로 다른 N2O 생산 경로의 대사에 관여하는 주요 효소의 유전적 서열(예: 아질산염을 NO로 환원(NirK 효소에 의해 매개됨), NO를 N으로 환원)의 결합이 필요합니다.
그래프 신경망 모델(GCNN)에 대한 고유한 기능을 공식화/정의하고 관련 기능/정보를 그림 4에 주어진 하이브리드 활성 슬러지 모델 개념에 대한 입력으로 추출합니다.
정확히 이 단계는 환경 생명 공학 및 해당 게놈 데이터의 도메인 지식과 전문성을 프로세스 엔지니어링/모델링 커뮤니티 및 해당 모델과 연결하는 다리입니다. 게놈 데이터를 포함하는 유연한 모델링 프레임워크를 제공하는 것 외에도 이 신경 기반 모델링 접근법은 현재 모델의 중요한 한계를 해결합니다.
실제로 현재 모델의 주요 단점은 대사 경로를 선험적으로 가정하고 해당 모델 구조를 공식화하여 해당 모델 매개변수를 보정하여 모든 폐수 처리 플랜트에 고정 및 적용한다는 것입니다.
새로운 하이브리드 모델링 접근법에서는 metagenomics 데이터를 사용하여 어떤 경로가 실제로 존재/활성화되고 N2 와 같은 우세한 미생물 활동에 기여하는지 알 수 있는 기능을 추출할 수 있습니다.
모델이 기본 미생물 군집 구성 및 변화에 적용되고 정렬되는 각 폐수 처리장에 대해 유효하도록 돕는 O 현상.
따라서 활성슬러지 모델링 분야에서 사용하기 위한 metagenomics 데이터의 요구와 영역에 맞는 맞춤형 신경 AI 방법론을 개발하기 위한 향후 연구가 필요할 것이다.
물질 설계의 GAN(Generative Adversial Networks)에 대한 화학적 특성 예측에 대한 GCNN의 최근 발전과 성공적인 적용과 더 넓은 문헌에서 약물 발견을 위한 GAN/강화 학습을 고려할 때, 새로운 연구 영역의 기반을 구축하기 위해 이러한 학제 간 분야.
이것은 특히 WWTP의 지속 가능한 운영을 위해 모델링(동적, 정상 상태 및 메타/대리 모델)을 개선하고 새로운 모델 기반 디지털 애플리케이션을 개발하기 위한 풍부한 지적 기반을 제공합니다.
확실히 환경 생명 공학(고처리량 유전자 시퀀싱 기술), 폐수 공학 및 모델링 커뮤니티, AI/빅 데이터 분석을 위한 컴퓨터 과학 애플리케이션의 동료 과학자들과 힘을 합칠 필요가 있습니다.
결론
ASM은 많은 폐수 처리 플랜트를 구상, 설계 및 운영하는 데 도움이 되는 귀중한 도구였습니다.
우리는 새로운 AI 기술을 결합하여 비 전통적인 이기종 데이터 소스에서 기능과 정보를 추출하고 가용성과 다양성을 증가시키는 다 분야 연구 접근 방식을 활용하여 이 분야를 다음 단계로 나아가는 것이 적절하다고 주장합니다.
빅 데이터, 특히 지금까지 프로세스 모델링에 사용된 적이 없는 메타지노믹스 데이터. 그러나 생물학적 분자 데이터를 통합하기 위해 ML 접근 방식을 활용하려면 많은 연구가 필요합니다.
향상된 생물학적 현상 기반 접근 방식 덕분에 우리는 새로운 연구 영역에서 WWTP의 증가하는 요구를 충족하기 위해 이전에 알려지지 않은 설계, 운영 및 제어 솔루션을 생성할 수 있을 것으로 기대합니다.
원심탈수기 : 바로가기