'분류 전체보기' 카테고리의 글 목록 (6 Page)

분류 전체보기

데이터 과학자로서의 생물정보학

바닐라스카이 2024. 8. 25. 21:11

2024. 8. 25. 21:11

바이오 데이터 분석에서의 직무 분류와 역할 정의

이전 글에서는 데이터 과학에서의 직무 분류를 다루었습니다.

2024.08.25 - [Data Science] - 데이터 과학에서의 직무 분류

데이터 과학에서의 직무 분류

데이터 분석의 중요성과 직무별 역할데이터를 분석하는 주요 이유는 데이터를 수집하고, 정제(ETL), 분석하여 목적에 맞게 활용하기 위함입니다. 이 과정은 단순히 데이터를 수집하는 것에 그치

bgreat.tistory.com

최근 많은 바이오 회사들이 차세대 염기서열 분석(NGS, Next-Generation Sequencing) 기술의 발전에 따라 방대한 데이터를 생성하고 있으며, 이를 효과적으로 다룰 수 있는 생물정보학(Bioinformatics)의 필요성을 절감하고 있습니다. 이에 따라 관련 부서를 신설하는 경우가 많지만, 실제 데이터 분석 실무자로서 보면 바이오/메디컬 데이터를 다루는 방식과 일반적인 데이터 분석 업계에서의 접근 방식에 차이가 존재하는 경우가 많습니다. 따라서, 이번 글에서는 바이오/메디컬 데이터를 다루는 데이터 과학자(Data Scientist), 데이터 분석가(Data Analyst), 그리고 데이터 엔지니어(Data Engineer)의 역할을 재정의해 보려 합니다.

생물정보학과 데이터 과학의 유사점과 차이점

생물정보학을 공부할 때 처음 마주하는 데이터 과학자의 직무 분류 그림을 떠올려 봅시다. 여기에서 도메인을 "Biology"로 바꾸면 거의 비슷한 직무 분류가 나타납니다. 예를 들어, 생물정보학자는 생물학적 데이터를 분석하기 위해 데이터 과학의 여러 기술을 적용하며, 통계적 분석과 머신러닝 모델링도 다루기 때문입니다.

그러나 중요한 차이점도 존재합니다. 생물정보학에서는 컴퓨터 과학을 단순 코딩으로 해석하는 경우가 있지만, 현대에서는 코딩을 하나의 교양으로 볼 수 있습니다. 즉, 단순 코딩보다는 더 깊이있는 데이터를 다루기 위한 스킬을 익히는 것이 필수입니다.

특히 빅데이터 분석의 필요성을 고려하면, 적절한 IT 인프라가 필수적입니다. 대량의 데이터를 다루지 않는 상황이라면 이런 인프라의 필요성을 느끼지 못할 수 있지만, 데이터 분석의 핵심은 빅데이터를 분석하는 것에 있습니다. 따라서, 초기의 데이터 규모가 작다고 해서 분석 환경을 간소화하면, 이후 데이터가 급격히 증가하는 상황에서 중복 투자가 발생할 수 있습니다. 이는 데이터 파이프라인을 다시 구축하고, 데이터를 재처리하는 데 드는 시간과 비용의 낭비를 초래할 수 있습니다.

바이오 데이터 분석 팀의 최소 구성

저는 효과적인 바이오 데이터 분석 팀의 최소 구성은 각 분야의 전문가가 최소 1명씩 포함된 팀이라고 생각합니다. 각 분야란 데이터 과학자, 데이터 분석가, 데이터 엔지니어를 의미합니다. 각 전문가는 자신만의 독특한 역할과 스킬 세트를 가지고 있으며, 이들이 협력할 때 데이터 분석의 모든 단계가 원활하게 이루어질 수 있습니다. 이러한 구성은 바이오 데이터 분석의 복잡성을 다루는 데 필수적입니다.

1. 데이터 과학자 (Data Scientist)

데이터 과학자는 고급 통계학, 머신러닝 알고리즘, 모델링, 데이터 시각화 도구 등에 대한 깊은 이해를 요구하는 직무입니다. 생물정보학에서 데이터 과학자는 생물학적 데이터의 특성을 이해하고, 이를 바탕으로 알고리즘을 개발하는 중요한 역할을 합니다. 연구와 임상 검사 모두에 걸쳐, 데이터 과학자는 데이터에서 유의미한 패턴을 발견하고 예측 모델을 만드는 데 핵심적인 기여를 합니다.

예를 들어, 액체 생검에서 산모의 세포유리 DNA(cfDNA)에서 태아의 DNA를 추출하여 염색체 수 이상을 검출하는 검사를 수행할 때, 데이터 과학자는 이러한 데이터를 분석하여 태아의 염색체 이상을 탐지하는 알고리즘을 개발합니다. 이는 흔히 비침습적 산전 검사(NIPT 또는 NIPS)라고 불리며, 태아의 염색체 수 이상뿐만 아니라 미세 결절(microdeletion) 등 다양한 유전적 이상을 탐지하는 데 사용됩니다.

더 나아가, 정확한 결과를 예측하기 위해 데이터 과학자는 통계적 방법론이나 머신러닝(ML), 딥러닝(DL) 기술을 사용하여 새로운 예측 모델을 개발합니다. 예를 들어, 태아 분획도(fetal fraction)를 계산하는 다양한 방법론이 존재하며, 이를 통해 보다 정확한 진단과 예측이 가능해집니다. 데이터 과학자는 이러한 복잡한 모델과 알고리즘을 설계하고 최적화하는 전문가로, 바이오 데이터 분석 팀에서 중요한 역할을 수행합니다.

2. 데이터 분석가 (Data Analyst)

데이터 분석가는 데이터를 탐색하고, 패턴을 찾아내며, 이를 이해하기 쉬운 형태로 시각화하는 능력이 필요한 직무입니다. 일반적인 데이터 분석과 생물정보학 데이터 분석의 차이는 사용하는 도구와 시각화 방법에서 두드러집니다. 전통적인 데이터 분석에서는 Tableau나 Microsoft Power BI와 같은 도구를 사용하지만, 생물정보학에서는 주로 과학적 시각화를 위한 도구가 사용됩니다.

예를 들어, Plotly의 Dash Bio와 같은 도구를 통해 복잡한 바이오 데이터를 시각화할 수 있으며, 이 외에도 IGV(Integrative Genomics Viewer)나 KEGG PATHWAY 이미지와 같은 생물학적 시각화 도구들이 자주 사용됩니다. 이러한 도구들은 생물학적 데이터를 직관적이고 이해하기 쉽게 표현하는 데 중요한 역할을 합니다.

도메인 지식이 핵심이 되는 데이터 분석가는 데이터 과학자와 밀접하게 협력하여 분석 결과를 해석하고, 임상적 또는 연구적 의미를 도출합니다. 예를 들어, NIPS에서 신생아의 염색체 이상이 예측되었다면, 데이터 분석가는 ACMG의 CNV 해석 가이드라인과 관련된 임상 논문을 참고하여 예상되는 증상이나 질병을 제시할 수 있습니다. 이 역할은 특히 학계에서 중요한데, 분석 결과를 정확히 이해하고 해석하기 위해서는 폭넓은 생물학적 지식과 실험적 배경이 필요하기 때문입니다.

3. 데이터 엔지니어 (Data Engineer)

데이터 엔지니어는 데이터 파이프라인을 구축하고 유지보수하며, 대규모 데이터 처리 및 관리 시스템을 설계하는 직무를 담당합니다. 이 직무는 바이오 데이터 분석 팀에서 도메인의 영향을 상대적으로 적게 받지만, 산업계에서는 매우 중요한 역할을 수행합니다.

학계의 경우, 연구에 대규모 데이터 처리가 필요하지 않은 경우가 많아 데이터 엔지니어의 필요성이 덜할 수 있지만, 산업계에서는 안정적이고 확장 가능한 데이터 인프라가 필수적입니다. 이는 데이터 수집부터 저장, 처리, 분석에 이르는 전체 과정이 신뢰성 있게 작동해야 하기 때문입니다. 데이터 엔지니어가 이러한 시스템을 제대로 설계하고 유지하지 않으면, 초기에는 문제를 느끼지 못할 수 있지만, 데이터의 양이 증가하거나 복잡성이 높아질 경우 중복 투자가 필요해질 수 있습니다. 따라서, 데이터 엔지니어의 역할은 장기적으로 데이터를 효율적으로 관리하고, 비용을 절감하는 데 필수적입니다.

생물정보학과 데이터 분석의 적용 범위

특히, NGS 기술이 대용량 데이터를 생성하기 때문에 생물정보학적 분석에 적합한 것은 사실입니다. 그러나 회사에서 수행하는 지속적인 검사 데이터를 분석하는 데에도 생물정보학자가 충분히 기여할 수 있습니다. 예를 들어, 감염병 유행 검사에서 단순 PCR 데이터로 얻어지는 결과도 체계적으로 수집되고 해석된다면, 바이오 분석의 중요한 인사이트를 제공할 수 있습니다. 이는 생물정보학자가 데이터 분석의 방법론을 적용하여 의미 있는 결과를 도출할 수 있는 또 다른 예시가 됩니다.

결론

바이오/메디컬 데이터 분석은 데이터 과학과 유사하면서도 독특한 도전과 기회를 제공합니다. 바이오 데이터 분석 팀이 효과적으로 운영되기 위해서는 각 직무별로 충분한 전문 지식을 갖춘 인력이 필요합니다. 또한, 빅데이터를 다룰 수 있는 인프라와 기술적 준비가 되어 있어야만 데이터의 스케일이 커질 때 발생할 수 있는 문제를 예방하고 효율적으로 확장할 수 있습니다. 생물정보학자와 데이터 과학자는 이러한 환경에서 데이터로부터 가치를 창출하는 데 중요한 역할을 합니다. 바이오 회사들이 이러한 필요성을 인식하고, 적절한 팀 구성과 기술 인프라를 갖추는 것이 중요합니다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science' 카테고리의 다른 글

데이터 분석을 위한 On-premise HPC 서버 구성 (1)	2024.09.28
AI 모델 개발부터 운영까지: 전체 프로세스 (0)	2024.09.10
데이터 분석팀의 백엔드 프레임워크 Java Spring Boot vs Django (0)	2024.08.30
데이터 분석팀에서의 소프트웨어 개발 (0)	2024.08.29
데이터 과학에서의 직무 분류 (0)	2024.08.25

데이터 과학에서의 직무 분류

바닐라스카이 2024. 8. 25. 01:43

2024. 8. 25. 01:43

데이터 분석의 중요성과 직무별 역할

데이터를 분석하는 주요 이유는 데이터를 수집하고, 정제(ETL), 분석하여 목적에 맞게 활용하기 위함입니다. 이 과정은 단순히 데이터를 수집하는 것에 그치지 않고, 이를 정제하고(ETL: Extract, Transform, Load), 분석하여 실질적인 의사결정에 기여하는 단계까지 이어집니다. 이러한 과정을 효과적으로 수행하려면 다양한 스킬이 필요하며, 크게 세 가지 영역으로 나눌 수 있습니다: 도메인 지식, 컴퓨터 과학 지식, 그리고 분석 및 모델링 지식입니다.

이러한 지식들은 각각의 직무에 따라 요구되는 수준이 다르며, 최근에는 데이터 관련 직무를 크게 세 가지로 분류하는 경향이 있습니다: 데이터 사이언티스트(Data Scientist), 데이터 분석가(Data Analyst), 그리고 데이터 엔지니어(Data Engineer)입니다. 경우에 따라 MLops 엔지니어 또는 머신러닝 엔지니어(ML Engineer)가 추가되기도 합니다.

개인적으로는 다른 직무에 대한 이해도가 그림보다는 더 많이 있어야 협업이 잘 된다고 생각하지만 정답은 없습니다.

데이터 관련 직무와 필요한 스킬

각 직무별로 요구되는 구체적인 역할과 스킬은 다음과 같이 요약할 수 있습니다:

데이터 사이언티스트(Data Scientist):
- 역할: 복잡한 데이터 문제를 해결하기 위해 통계적 분석과 머신러닝 모델을 설계하고 구현합니다. 비즈니스 문제를 데이터 문제로 변환하고, 데이터에서 통찰을 도출하여 의사결정에 활용될 수 있도록 합니다.
- 필요한 스킬: 고급 통계학, 머신러닝, 데이터 시각화, 프로그래밍 언어(Python, R 등), 데이터 처리 및 모델링 도구(Pandas, Scikit-Learn, TensorFlow 등).
데이터 분석가(Data Analyst):
- 역할: 데이터로부터 의미 있는 인사이트를 도출하고, 데이터를 시각적으로 표현하여 비즈니스 의사결정에 필요한 정보를 제공합니다. 대개 비즈니스 팀과 협력하여 필요한 데이터를 분석하고 리포트를 작성합니다.
- 필요한 스킬: SQL, 데이터 시각화 도구(Tableau, Microsoft Power BI 등), 통계적 분석, 엑셀과 같은 스프레드시트 소프트웨어. 코딩 스킬은 필수적이지 않을 수 있으나, 도메인 지식과 데이터를 다루는 기술이 중요합니다.
데이터 엔지니어(Data Engineer):
- 역할: 데이터 수집, 저장, 처리 파이프라인을 구축하고 유지합니다. 대규모 데이터베이스 및 데이터 웨어하우스를 설계하고 최적화하며, 데이터를 분석가와 데이터 사이언티스트가 쉽게 접근하고 사용할 수 있도록 합니다.
- 필요한 스킬: 데이터베이스 관리(SQL, NoSQL), ETL 파이프라인 구축(Apache Kafka, Apache Spark 등), 클라우드 플랫폼(AWS, GCP, Azure), 프로그래밍 언어(Python, Java, Scala 등).
MLops 엔지니어 또는 머신러닝 엔지니어(ML Engineer):
- 역할: 머신러닝 모델의 개발과 배포를 담당하며, 모델이 운영 환경에서 효과적으로 작동하도록 보장합니다. 모델의 성능을 모니터링하고, 필요 시 업데이트 및 재훈련을 실시합니다.
- 필요한 스킬: 머신러닝 알고리즘, 모델 배포 및 모니터링 도구(Docker, Kubernetes, MLflow), 클라우드 플랫폼 활용, 데이터 엔지니어링.

직무 간 협업의 중요성

개인적으로는 데이터 관련 직무 간의 협업이 매우 중요하며, 이를 위해 각 직무에 대한 이해도가 높을수록 더 나은 결과를 도출할 수 있다고 생각합니다. 예를 들어, 데이터 엔지니어가 분석가의 요구를 잘 이해하고, 분석가는 데이터 엔지니어링 과정에 대한 기본적인 이해가 있다면 데이터 파이프라인의 효율성이 크게 향상될 수 있습니다. 따라서 특정 직무에 속해 있다 하더라도 다른 직무에 대한 기초적인 이해를 가지는 것이 중요합니다.

데이터 분석과 소프트웨어 엔지니어링

소프트웨어 엔지니어, 특히 풀스택 개발자가 데이터 분석에서 중요한 역할을 하는 이유는 데이터 분석가들이 주로 사용하는 도구(Tableau, Microsoft Power BI 등)가 웹 애플리케이션과 유사한 데이터 처리 및 시각화 기능을 제공하기 때문입니다. 확장성 있는 데이터 처리를 위해서는 웹 애플리케이션 개발 능력이 필요하며, 이러한 역량은 데이터 분석가가 데이터에서 더 나은 인사이트를 도출하고, 그 결과를 이해하기 쉽게 표현하는 데 기여할 수 있습니다.

데이터 분석가의 역할과 도구의 한계

데이터 분석가의 역할을 살펴보면, 다른 데이터 관련 직무와는 다소 다른 방향성을 가지고 있다는 점을 알 수 있습니다. 데이터 분석가는 도메인 지식을 바탕으로 도구의 도움을 받아 비교적 적은 코딩으로도 데이터를 분석할 수 있습니다. 하지만 이러한 노코딩 접근법은 적용할 수 있는 범위에 한계가 있을 수 있습니다. 복잡한 분석이나 모델링 작업이 필요한 경우, 더 깊은 기술적 역량과 코딩 스킬이 요구될 수 있습니다.

데이터 관련 직무의 연봉 차이

미국 내 연봉을 확인할 수 있는 여러 사이트에 따르면, 데이터 분석가의 연봉이 상대적으로 낮은 경향이 있습니다. 이는 데이터 분석가의 작업이 도메인 지식과 데이터 시각화 도구에 의존하는 경우가 많고, 다른 데이터 관련 직무와 비교하여 기술적 깊이와 복잡성이 덜 요구되기 때문일 수 있습니다. 그러나 각 직무의 연봉은 회사의 요구사항, 직무의 중요도, 개별적인 능력에 따라 크게 달라질 수 있습니다.

결론

모든 데이터 관련 직무(데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, MLops 엔지니어/ML 엔지니어)를 전문가 수준으로 한 사람이 익히는 것은 현실적으로 매우 어렵습니다. 각 직무는 고유한 전문 지식과 기술, 도구를 요구하며, 이를 마스터하는 데 상당한 시간과 노력이 필요합니다. 또한, 각 직무는 지속적인 학습과 경험이 요구되는 빠르게 변화하는 분야입니다. 따라서 한 사람이 모든 직무를 깊이 있게 익히고 유지하기에는 한계가 있습니다.

데이터 분석 팀이 효과적으로 역할을 수행하기 위해서는 각 직무에 대한 전문성을 가진 사람이 최소 한 명씩 포함되어 있어야 합니다. 이는 팀 내에서 다양한 문제를 효율적으로 해결하고, 데이터 기반의 의사결정을 신속하고 정확하게 내릴 수 있도록 합니다. 다양한 전문성을 가진 팀 구성은 복잡한 데이터 분석 과정에서 협업을 촉진하고, 데이터로부터 의미 있는 인사이트를 도출하여 비즈니스 가치를 창출하는 데 필수적입니다.

결론적으로, 각 직무의 전문성을 깊이 있게 익히는 것은 개별 전문가에게 맡기고, 팀 내에서 서로의 전문성을 이해하고 협력하는 것이 데이터 분석 팀의 성공에 가장 중요한 요소입니다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science' 카테고리의 다른 글

데이터 분석을 위한 On-premise HPC 서버 구성 (1)	2024.09.28
AI 모델 개발부터 운영까지: 전체 프로세스 (0)	2024.09.10
데이터 분석팀의 백엔드 프레임워크 Java Spring Boot vs Django (0)	2024.08.30
데이터 분석팀에서의 소프트웨어 개발 (0)	2024.08.29
데이터 과학자로서의 생물정보학 (0)	2024.08.25

동적 속성과 프로퍼티

바닐라스카이 2024. 8. 16. 09:23

2024. 8. 16. 09:23

파이썬에서 동적 속성과 프로퍼티(dynamic attributes and properties)는 객체 지향 프로그래밍에서 중요한 개념으로, 객체의 속성을 더 유연하고 강력하게 관리할 수 있도록 도와줍니다. 이 두 가지 개념을 이해하면, 더 효율적이고 유지보수하기 쉬운 코드를 작성할 수 있습니다. 아래에 각각의 개념을 자세히 설명하겠습니다.

1. 동적 속성 (Dynamic Attributes)

파이썬에서는 객체에 동적으로 속성을 추가하거나 제거할 수 있습니다. 이것은 파이썬의 유연한 클래스 구조 덕분에 가능한데, 다른 많은 프로그래밍 언어에서는 클래스에 정의된 속성만을 사용할 수 있는 경우가 많습니다.

동적 속성의 사용 사례

동적 속성은 객체의 속성을 런타임에 결정해야 하거나, 객체가 다루는 데이터 구조가 매우 유동적일 때 유용합니다. 예를 들어, JSON 응답에서 키를 동적으로 객체 속성으로 변환할 때 사용할 수 있습니다.

2. 프로퍼티 (Properties)

프로퍼티는 파이썬에서 제공하는 특수한 속성으로, 속성에 접근할 때 특정한 동작을 수행할 수 있게 해줍니다. 예를 들어, 속성의 값을 가져오거나 설정할 때 추가적인 로직을 수행할 수 있습니다.

프로퍼티의 사용 사례

프로퍼티는 다음과 같은 경우에 유용합니다:

속성의 값을 가져오거나 설정할 때 검증 로직을 추가해야 할 때
속성 값을 계산한 후 반환해야 할 때 (지연된 계산)
속성 접근 방식을 일관되게 유지하면서 내부 구현을 변경하고 싶을 때

데이터 랭글링과 동적 속성의 관계

데이터 랭글링 과정에서는 데이터의 형태가 일정하지 않거나, 데이터의 구조가 런타임에 결정될 수 있습니다. 이러한 상황에서 파이썬의 동적 속성은 매우 유용하게 사용됩니다. 예를 들어, JSON이나 XML과 같은 비정형 데이터를 객체로 변환할 때, 동적 속성을 사용하면 해당 데이터를 쉽게 다룰 수 있습니다.

동적 속성을 이용한 데이터 랭글링의 장점

유연성: 데이터를 구조화하는 방법이 사전에 정의되지 않았을 때, 동적 속성을 사용하면 어떤 형태의 데이터도 쉽게 객체로 변환할 수 있습니다.
유지보수성: 새로운 데이터 필드가 추가되거나 변경될 때, 코드 수정이 최소화됩니다. 동적 속성을 통해 데이터를 자동으로 객체 속성으로 변환할 수 있기 때문입니다.
가독성: 동적으로 생성된 속성을 통해 데이터에 접근하는 것이, 복잡한 딕셔너리나 리스트 구조를 탐색하는 것보다 직관적이고 읽기 쉬운 코드를 작성하는 데 도움이 됩니다.

실제 활용 예시

동적 속성을 사용한 데이터 랭글링은 특히 웹 애플리케이션, API 응답 처리, 데이터 분석에서 자주 사용됩니다. 예를 들어, API 응답 데이터를 객체로 변환하여 사용하는 경우, 새로운 데이터 필드가 응답에 추가되더라도 별도의 코드 수정 없이 그 필드를 동적으로 추가하여 처리할 수 있습니다.

요약하자면, "동적 속성을 이용한 데이터 랭글링"은 파이썬의 동적 속성을 활용하여 다양한 형태의 데이터를 유연하게 다루고, 이를 통해 데이터 변환, 정제, 조작을 더 효율적으로 수행하는 방법을 의미합니다.

import json

class DynamicObject:
    def __init__(self, **entries):
        self.__dict__.update(entries)

# JSON 데이터를 파싱하여 파이썬 딕셔너리로 변환
json_data = '{"name": "Alice", "age": 30, "city": "New York"}'
data = json.loads(json_data)

# 동적 속성을 사용하여 객체로 변환
obj = DynamicObject(**data)

# 동적으로 추가된 속성에 접근
print(obj.name)  # 출력: Alice
print(obj.age)   # 출력: 30
print(obj.city)  # 출력: New York

json 파일을 원래 상태 그대로 다루다보면, 아래와 같이 번거로운 구문이 반복된다.

feed['Schedule']['speakers'][0]['name']

동적 속성을 이용하여 아래와 같이 사용할 수 있다면 아주 편할 것이다.

raw_feed = load()
feed = FrozenJSON(raw_feed)
print(len(feed.Schedule.speakers))
print(sorted(feed.Schedule.keys()))
print(feed.Schedule.speakers[0].name)

FrozenJSON class는 위와 같은 기능을 구현하고 있다.

가장 핵심은 __getattr__() method이다. 피드가 순회되면서 내포된 데이터 구조체가 차례로 FrozenJSON 포켓으로 변환된다.

from collections import abc
from loader import load

class FrozenJSON:
    '''
    점 표기법을 이용하여 JSON 객체를 순회하는
    읽기 전용 parsed class
    '''

    def __init__(self, mapping):
        self.__data = dict(mapping)

    def __getattr__(self, name):
        if hasattr(self.__data, name):
            return getattr(self.__data, name)
        else:
            return FrozenJSON.build(self.__data[name])

    @classmethod
    def build(cls, obj):
        if isinstance(obj, abc.Mapping):
            return cls(obj)
        elif isinstance(obj, abc.MutableSequence):
            return [cls.build(item) for item in obj]
        else:
            return obj


raw_feed = load()
feed = FrozenJSON(raw_feed)
print(len(feed.Schedule.speakers))
print(sorted(feed.Schedule.keys()))
print(feed.Schedule.speakers[0].name)

프로퍼티의 기본 사용법

프로퍼티는 property() 함수를 사용하거나, 데코레이터 @property와 그와 관련된 데코레이터(@<property_name>.setter, @<property_name>.deleter)를 사용하여 정의할 수 있습니다.

class MyClass:
    def __init__(self, value):
        self._value = value
    
    @property
    def value(self):
        return self._value
    
    @value.setter
    def value(self, new_value):
        if new_value < 0:
            raise ValueError("Value must be non-negative")
        self._value = new_value

    @value.deleter
    def value(self):
        del self._value

# 사용 예시
obj = MyClass(10)
print(obj.value)  # 10

obj.value = 20  # 정상적으로 값이 설정됨
print(obj.value)  # 20

obj.value = -5  # ValueError 발생

1. 프로퍼티에서 getter를 사용하는 경우

파이썬에서는 @property 데코레이터를 사용하여 속성 접근 시 자동으로 호출되는 getter 메서드를 정의할 수 있습니다. 이 방법은 속성에 접근할 때 obj.attribute 형태로 간단하게 사용할 수 있습니다.

장점

직관적이고 간결한 문법:
캡슐화:
속성에 접근할 때 추가 로직을 쉽게 추가:
유지보수성:

단점

은밀한 동작:
디버깅 어려움:

값을 얻기 위한 메서드를 따로 작성하는 경우

이 방법에서는 get_value()와 같은 이름으로 값을 얻기 위한 메서드를 직접 정의합니다. 이는 명시적으로 값을 얻기 위한 함수 호출임을 나타냅니다.

장점

명확성:
의도 표현:
구조적 일관성:

단점

사용의 불편함:
캡슐화의 부족:

결론: 언제 어떤 것을 사용할지

프로퍼티(getter) 사용:
- 속성 접근처럼 보이지만, 내부적으로 추가 로직이 필요한 경우.
- 코드의 가독성과 간결성을 중시할 때.
- 객체의 속성을 외부에 노출하면서도 캡슐화를 유지하고 싶을 때.
메서드 사용:
- 접근하는 값이 계산이나 복잡한 로직에 의해 생성되는 경우.
- 메서드 호출임을 명확히 표현하고 싶을 때.
- 코드의 명확성과 의도 표현이 중요한 경우.

프로퍼티 팩토리

"프로퍼티 팩토리(Property Factory)"는 파이썬에서 프로퍼티를 동적으로 생성하거나, 다수의 프로퍼티를 공통된 패턴에 따라 쉽게 정의하기 위해 사용하는 방법입니다. 즉, 객체의 속성을 정의할 때, 비슷한 패턴이나 규칙에 따라 다수의 속성을 자동으로 생성하고자 할 때 유용합니다.

def make_property(attr_name):
    def getter(self):
        return getattr(self, f"_{attr_name}")

    def setter(self, value):
        if value < 0:
            raise ValueError(f"{attr_name} cannot be negative")
        setattr(self, f"_{attr_name}", value)

    return property(getter, setter)

class MyClass:
    name = make_property('name')
    age = make_property('age')

    def __init__(self, name, age):
        self._name = name
        self._age = age

# 사용 예시
obj = MyClass("Alice", 30)
print(obj.age)  # 출력: 30

# 음수 값을 설정하려고 하면 ValueError 발생
try:
    obj.age = -5
except ValueError as e:
    print(e)  # 출력: age cannot be negative

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

연산자 오버로딩 (0)	2024.07.09
추상클래스의 활용 (0)	2024.06.12
프로토콜과 'abc' 모듈 (0)	2024.06.11
Python 데코레이터 (0)	2024.05.21
seaborn clustermap color label (0)	2022.05.24

연산자 오버로딩

바닐라스카이 2024. 7. 9. 21:31

2024. 7. 9. 21:31

연산자 오버로딩은 파이썬에서 클래스에 특별한 메서드를 정의함으로써, 사용자 정의 객체가 기본 제공 연산자와 함께 사용될 때의 동작을 지정하는 기능입니다. 이를 통해 +, -, *, / 같은 연산자를 객체에 대해 직접 사용할 수 있습니다. 연산자 오버로딩을 통해 코드의 가독성을 높이고, 객체 지향 프로그래밍의 장점을 살릴 수 있습니다.

장점

코드 가독성 향상:
- 연산자 오버로딩을 사용하면 코드가 더 직관적이고 읽기 쉬워집니다. 예를 들어, 벡터 덧셈을 vector1 + vector2로 표현할 수 있어 수학적인 표현과 일치합니다.
객체 지향 프로그래밍의 일관성:
- 사용자 정의 객체도 기본 자료형처럼 사용할 수 있어 객체 지향 프로그래밍의 일관성을 유지할 수 있습니다. 예를 들어, Complex 클래스에서 복소수 덧셈을 정의하면, 복소수 객체를 숫자처럼 다룰 수 있습니다.
캡슐화:
- 객체의 내부 구현을 숨기고, 연산자 오버로딩을 통해 외부에서 객체를 더 간편하게 사용할 수 있습니다. 사용자는 객체의 내부 구조를 몰라도 연산자를 통해 객체를 조작할 수 있습니다.
재사용성:
- 연산자 오버로딩을 통해 정의된 연산은 다양한 상황에서 일관되게 사용될 수 있어 코드의 재사용성을 높입니다.

단점

가독성 저하 가능성:
- 과도한 연산자 오버로딩은 오히려 코드의 가독성을 떨어뜨릴 수 있습니다. 연산자가 실제로 어떤 일을 하는지 명확하지 않으면, 코드를 이해하기 어려워집니다.
디버깅 어려움:
- 연산자 오버로딩으로 인해 연산자 호출 시 실제로 어떤 메서드가 호출되는지 추적하기 어려울 수 있습니다. 이는 디버깅을 복잡하게 만들 수 있습니다.
예상치 못한 동작:
- 연산자 오버로딩이 잘못 사용되면 예상치 못한 동작을 초래할 수 있습니다. 특히, 연산자가 일반적인 의미와 다른 동작을 수행할 경우 혼란을 초래할 수 있습니다.
유지보수 어려움:
- 복잡한 연산자 오버로딩은 코드를 유지보수하기 어렵게 만듭니다. 시간이 지나면 코드 작성자조차도 오버로딩된 연산자의 동작을 이해하기 어려울 수 있습니다.
성능 저하:
- 연산자 오버로딩을 남용하면 불필요한 객체 생성이나 복잡한 연산이 포함될 수 있어 성능이 저하될 수 있습니다.

파이썬에서 연산자 오버로딩을 위해 사용되는 특별한 메서드들(매직 메서드라고도 불림)은 다음과 같습니다:

__add__(self, other) - + 연산자
__sub__(self, other) - - 연산자
__mul__(self, other) - * 연산자
__truediv__(self, other) - / 연산자
__floordiv__(self, other) - // 연산자
__mod__(self, other) - % 연산자
__pow__(self, other) - ** 연산자
__eq__(self, other) - == 연산자
__ne__(self, other) - != 연산자
__lt__(self, other) - < 연산자
__le__(self, other) - <= 연산자
__gt__(self, other) - > 연산자
__ge__(self, other) - >= 연산자

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __add__(self, other):
        return Vector(self.x + other.x, self.y + other.y)

    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

# 사용 예시
v1 = Vector(2, 3)
v2 = Vector(5, 7)
v3 = v1 + v2
print(v3)  # Output: Vector(7, 10)

연산자 오버로딩은 같은 클래스의 인스턴스 간에도 사용될 수 있지만, 다른 클래스의 인스턴스 간에도 사용할 수 있습니다. 연산자 오버로딩 메서드에서 타입 검사를 하여 원하는 동작을 정의할 수 있습니다. 예를 들어, 서로 다른 클래스의 객체를 더하는 경우를 살펴보겠습니다.

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __add__(self, other):
        if isinstance(other, Vector):
            return Vector(self.x + other.x, self.y + other.y)
        elif isinstance(other, (int, float)):
            return Vector(self.x + other, self.y + other)
        else:
            return NotImplemented

    def __radd__(self, other):
        return self.__add__(other)

    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

# 사용 예시
v1 = Vector(2, 3)
v2 = Vector(5, 7)
v3 = v1 + v2          # 두 벡터의 덧셈
v4 = v1 + 10          # 벡터와 스칼라의 덧셈
v5 = 10 + v1          # 스칼라와 벡터의 덧셈 (__radd__ 사용)

print(v3)  # Output: Vector(7, 10)
print(v4)  # Output: Vector(12, 13)
print(v5)  # Output: Vector(12, 13)

위의 예제들은 길이가 다른 벡터를 더하는 다양한 방법을 보여줍니다. 어떤 방법을 사용할지는 특정 문제의 요구사항에 따라 결정하면 됩니다. 일반적으로는 길이가 다른 벡터를 더하는 것이 자연스럽지 않으므로, 명확한 의도가 없으면 에러를 발생시키는 것이 좋습니다.

__add__와 __radd__는 파이썬에서 연산자 오버로딩을 위해 사용되는 특별한 메서드들입니다. 이 메서드들은 + 연산자를 객체에 대해 사용할 때의 동작을 정의합니다.

add(self, other)

__add__ 메서드는 두 객체를 더할 때 호출됩니다. 즉, a + b와 같은 표현식을 평가할 때, a 객체의 __add__ 메서드가 호출됩니다.

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __add__(self, other):
        if isinstance(other, Vector):
            return Vector(self.x + other.x, self.y + other.y)
        elif isinstance(other, (int, float)):
            return Vector(self.x + other, self.y + other)
        else:
            return NotImplemented

    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

# 사용 예시
v1 = Vector(2, 3)
v2 = Vector(4, 5)
v3 = v1 + v2  # v1.__add__(v2)가 호출됨
print(v3)  # Output: Vector(6, 8)

radd(self, other)

__radd__ 메서드는 객체가 오른쪽에 있을 때 호출됩니다. 즉, b + a와 같은 표현식에서 a 객체의 __radd__ 메서드가 호출됩니다. 이는 a + b와 b + a의 표현식에서 a 객체가 __add__를 지원하지 않는 경우, 또는 a 객체의 타입이 b 객체의 타입과 다를 때 유용합니다.

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __add__(self, other):
        if isinstance(other, Vector):
            return Vector(self.x + other.x, self.y + other.y)
        elif isinstance(other, (int, float)):
            return Vector(self.x + other, self.y + other)
        else:
            return NotImplemented

    def __radd__(self, other):
        return self.__add__(other)  # 동일한 로직을 사용

    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

# 사용 예시
v1 = Vector(2, 3)
result = 5 + v1  # v1.__radd__(5)가 호출됨
print(result)  # Output: Vector(7, 8)

복합 할당 연산자

복합 할당 연산자는 대입 연산자(=)와 다른 연산자를 결합하여 더 간결하게 표현한 연산자입니다. 이 연산자는 변수를 업데이트하는데 사용되며, 다음과 같은 다양한 형태가 있습니다:

a = 10
b = 3

a += b  # a = 13
a -= b  # a = 10
a *= b  # a = 30
a /= b  # a = 10.0
a //= b  # a = 3
a %= b  # a = 1
a **= b  # a = 1
a &= b  # a = 1
a |= b  # a = 3
a ^= b  # a = 0
a <<= b  # a = 0
a >>= b  # a = 0

class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __iadd__(self, other):
        if isinstance(other, Vector):
            self.x += other.x
            self.y += other.y
        elif isinstance(other, (int, float)):
            self.x += other
            self.y += other
        else:
            return NotImplemented
        return self

    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

# 사용 예시
v1 = Vector(2, 3)
v2 = Vector(4, 5)
v1 += v2  # v1.__iadd__(v2)가 호출됨
print(v1)  # Output: Vector(6, 8) - 원래 객체가 변경됨

복합 연산자는 코드의 간결성을 높이고, 반복적인 코드 작성을 줄이는 데 매우 유용합니다. 특히 데이터 처리나 반복적인 계산을 수행할 때 자주 사용됩니다. 다음은 복합 연산자를 응용한 예제로, 벡터 클래스에서 각 요소에 다른 벡터의 요소를 더하는 복합 연산(+=)을 구현하는 예입니다.

class Vector:
    def __init__(self, *components):
        self.components = list(components)

    def __iadd__(self, other):
        if isinstance(other, Vector):
            # 길이가 다른 경우 더 긴 벡터에 맞춰 짧은 벡터를 확장
            if len(self.components) < len(other.components):
                self.components.extend([0] * (len(other.components) - len(self.components)))
            elif len(self.components) > len(other.components):
                other.components.extend([0] * (len(self.components) - len(other.components)))
                
            for i in range(len(self.components)):
                self.components[i] += other.components[i]
        elif isinstance(other, (int, float)):
            self.components = [x + other for x in self.components]
        else:
            return NotImplemented
        return self

    def __repr__(self):
        return f"Vector({', '.join(map(str, self.components))})"

# 사용 예시
v1 = Vector(1, 2, 3)
v2 = Vector(4, 5, 6)
v1 += v2  # v1.__iadd__(v2)가 호출됨
print(v1)  # Output: Vector(5, 7, 9)

v3 = Vector(1, 2)
v4 = Vector(3, 4, 5)
v3 += v4  # v3.__iadd__(v4)가 호출됨
print(v3)  # Output: Vector(4, 6, 5)

v5 = Vector(1, 2, 3)
v5 += 10  # 모든 요소에 10을 더함
print(v5)  # Output: Vector(11, 12, 13)

Scalar 클래스와 Vector 클래스의 객체 간의 덧셈을 보여줍니다. s + v1에서는 Scalar 클래스의 __add__ 메서드가 호출되고, v1 + s에서는 Vector 클래스의 __add__ 메서드가 NotImplemented를 반환하여 Scalar 클래스의 __radd__ 메서드가 호출됩니다.

class Scalar:
    def __init__(self, value):
        self.value = value

    def __add__(self, other):
        if isinstance(other, Vector):
            return Vector(other.x + self.value, other.y + self.value)
        return NotImplemented

    def __radd__(self, other):
        return self.__add__(other)

    def __repr__(self):
        return f"Scalar({self.value})"

# 사용 예시
s = Scalar(10)
v1 = Vector(1, 2)

# 스칼라와 벡터의 덧셈 (__radd__ 사용)
v6 = s + v1  # Scalar의 __add__가 호출됨
print(v6)    # Output: Vector(11, 12)

v7 = v1 + s  # Vector의 __add__가 호출되고 NotImplemented를 반환, Scalar의 __radd__가 호출됨
print(v7)    # Output: Vector(11, 12)

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

동적 속성과 프로퍼티 (0)	2024.08.16
추상클래스의 활용 (0)	2024.06.12
프로토콜과 'abc' 모듈 (0)	2024.06.11
Python 데코레이터 (0)	2024.05.21
seaborn clustermap color label (0)	2022.05.24

추상클래스의 활용

바닐라스카이 2024. 6. 12. 13:22

2024. 6. 12. 13:22

Python의 추상 클래스와 MutableMapping을 활용한 데이터 구조 설계

Python은 객체 지향 프로그래밍(OOP) 언어로서, 추상 클래스를 통해 명확한 인터페이스를 정의하고 이를 기반으로 다양한 데이터 구조를 설계할 수 있는 기능을 제공합니다. 특히, Python의 collections.abc 모듈에서 제공하는 MutableMapping 추상 클래스를 활용하면, 딕셔너리와 같은 유연한 데이터 구조를 커스터마이즈하고 확장할 수 있습니다.

이 글에서는 Python의 추상 클래스 개념과 MutableMapping을 활용한 데이터 구조 설계 방법을 설명하고, 실질적인 예제를 통해 그 활용 방법을 소개합니다.

추상 클래스 (Abstract Class)

추상 클래스는 하나 이상의 추상 메서드를 포함하는 클래스입니다. 추상 메서드는 선언만 되어 있고, 실제 구현은 제공하지 않습니다. 추상 클래스는 객체를 직접 생성할 수 없으며, 반드시 상속받아 추상 메서드를 구현해야 합니다. 이를 통해 일관된 인터페이스를 강제할 수 있습니다.

추상 클래스의 정의

from abc import ABC, abstractmethod

class AbstractDataStructure(ABC):
    @abstractmethod
    def add(self, item):
        pass

    @abstractmethod
    def remove(self, item):
        pass

    @abstractmethod
    def find(self, item):
        pass

위 예제에서 AbstractDataStructure는 추상 클래스이며, add, remove, find 메서드는 추상 메서드로 정의되어 있습니다. 이 클래스는 상속받아 구체적인 구현을 제공해야 합니다.

MutableMapping 추상 클래스

collections.abc 모듈의 MutableMapping 추상 클래스는 딕셔너리와 같은 매핑 타입을 정의하는 데 사용됩니다. MutableMapping은 Mapping을 상속받아 변경 가능한 매핑 타입의 인터페이스를 정의합니다.

MutableMapping을 활용한 사용자 정의 클래스

MutableMapping을 상속받아 커스터마이즈된 딕셔너리 클래스를 구현할 수 있습니다. 이를 통해 기본 딕셔너리 기능을 확장하거나 새로운 기능을 추가할 수 있습니다.

from collections.abc import MutableMapping

class CustomDict(MutableMapping):
    def __init__(self):
        self._store = {}

    def __getitem__(self, key):
        return self._store[key]

    def __setitem__(self, key, value):
        self._store[key] = value

    def __delitem__(self, key):
        del self._store[key]

    def __iter__(self):
        return iter(self._store)

    def __len__(self):
        return len(self._store)

# CustomDict 사용 예제
custom_dict = CustomDict()
custom_dict['a'] = 1
custom_dict['b'] = 2

print(custom_dict['a'])  # 출력: 1
print(custom_dict)  # 출력: {'a': 1, 'b': 2}

del custom_dict['a']
print(custom_dict)  # 출력: {'b': 2}
print(len(custom_dict))  # 출력: 1

CustomDict에 예제 메서드 추가 및 활용

CustomDict 클래스에 예제 메서드를 추가하여 실제로 어떻게 활용할 수 있는지 살펴보겠습니다. 이 예제에서는 increment라는 메서드를 추가하여, 특정 키의 값을 증가시키는 기능을 구현해보겠습니다.

CustomDict 클래스 정의 및 예제 메서드 추가

from collections.abc import MutableMapping

class CustomDict(MutableMapping):
    def __init__(self):
        self._store = {}

    def __getitem__(self, key):
        return self._store[key]

    def __setitem__(self, key, value):
        self._store[key] = value

    def __delitem__(self, key):
        del self._store[key]

    def __iter__(self):
        return iter(self._store)

    def __len__(self):
        return len(self._store)

    # 예제 메서드 추가: 특정 키의 값을 증가시키는 메서드
    def increment(self, key, amount=1):
        if key in self._store:
            self._store[key] += amount
        else:
            self._store[key] = amount

# CustomDict 사용 예제
custom_dict = CustomDict()
custom_dict['a'] = 1
custom_dict.increment('a')
custom_dict.increment('b', 5)

print(custom_dict['a'])  # 출력: 2
print(custom_dict['b'])  # 출력: 5
print(custom_dict)  # 출력: {'a': 2, 'b': 5}

위 예제에서 CustomDict 클래스에 increment 메서드를 추가하여, 특정 키의 값을 증가시키는 기능을 구현했습니다.

Dictionary에서 비슷하게 구현

기본 dict를 사용하여 비슷한 기능을 구현할 수도 있습니다. 이를 위해 별도의 함수를 정의해보겠습니다.

# 기본 dict를 사용하여 increment 기능을 제공하는 함수
def increment(d, key, amount=1):
    if key in d:
        d[key] += amount
    else:
        d[key] = amount

# dict 사용 예제
basic_dict = {'a': 1}
increment(basic_dict, 'a')
increment(basic_dict, 'b', 5)

print(basic_dict['a'])  # 출력: 2
print(basic_dict['b'])  # 출력: 5
print(basic_dict)  # 출력: {'a': 2, 'b': 5}

CustomDict와 기본 dict를 사용한 구현의 장단점

CustomDict의 장점

메서드 추가 및 확장 용이:
- 클래스 메서드로 기능을 구현하면, 객체 지향적인 접근이 가능하고, 상태를 쉽게 관리할 수 있습니다.
- 메서드를 통해 기능을 캡슐화하여 코드의 재사용성과 유지보수성을 높일 수 있습니다.
인터페이스 일관성:
- MutableMapping을 상속받아 딕셔너리와 동일한 인터페이스를 제공하므로, 기존의 딕셔너리 사용 패턴과 호환됩니다.
추가 기능 구현의 용이성:
- CustomDict 클래스를 확장하여 새로운 기능을 쉽게 추가할 수 있습니다.

CustomDict의 단점

복잡성 증가:
- 기본 dict를 사용하는 것보다 클래스를 정의하고 관리하는 데 더 많은 코드와 복잡성이 필요합니다.
성능 저하 가능성:
- 추가된 추상화 계층으로 인해 성능이 약간 저하될 수 있습니다.

기본 dict의 장점

단순성:
- 별도의 클래스를 정의하지 않고, 단순한 함수로 기능을 구현할 수 있어 코드가 간결합니다.
- 기본 dict는 Python의 내장 자료형이므로 추가적인 학습이나 설정 없이 바로 사용할 수 있습니다.
성능:
- Python의 기본 dict는 C로 구현되어 있어 매우 빠릅니다.

기본 dict의 단점

재사용성 및 유지보수성 저하:
- 기능을 함수로 구현하면, 상태와 기능이 분리되어 있어 재사용성과 유지보수성이 낮아질 수 있습니다.
- 여러 함수로 기능을 확장하는 경우, 코드의 일관성을 유지하기 어렵습니다.
객체 지향 프로그래밍의 한계:
- 객체 지향 프로그래밍의 이점을 활용하지 못하므로, 복잡한 상태 관리나 기능 확장이 어렵습니다.

결론

CustomDict: 객체 지향적인 접근으로, 상태와 기능을 캡슐화하여 코드의 재사용성과 유지보수성을 높일 수 있습니다. 복잡한 기능을 확장하는 데 유리하지만, 기본 dict보다 구현과 관리가 더 복잡합니다.
기본 dict: 간단하고 성능이 우수하지만, 복잡한 기능을 확장하거나 유지보수할 때 어려움이 있을 수 있습니다.

두 접근 방식 모두 장단점이 있으므로, 특정 상황과 요구 사항에 따라 적절한 방법을 선택하는 것이 중요합니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

동적 속성과 프로퍼티 (0)	2024.08.16
연산자 오버로딩 (0)	2024.07.09
프로토콜과 'abc' 모듈 (0)	2024.06.11
Python 데코레이터 (0)	2024.05.21
seaborn clustermap color label (0)	2022.05.24

프로토콜과 'abc' 모듈

바닐라스카이 2024. 6. 11. 16:22

2024. 6. 11. 16:22

프로토콜 (Protocol)

프로토콜은 특정 메소드나 속성을 구현해야 하는 비공식적인 인터페이스입니다. Python은 강력한 덕 타이핑(duck typing) 덕분에 공식적으로 인터페이스를 정의하지 않아도 됩니다. 객체가 특정 메소드나 속성을 가지고 있다면, 그 객체는 해당 프로토콜을 구현한다고 간주합니다.

예를 들어, Python의 시퀀스 프로토콜은 __len__과 __getitem__ 메소드를 요구합니다. 리스트, 튜플, 문자열 등은 모두 이 프로토콜을 구현합니다.

인터페이스를 정의한다는 것은 클래스가 가져야 할 메소드와 속성을 명시하는 것을 의미합니다. 이는 객체 지향 프로그래밍에서 매우 중요한 개념입니다. 인터페이스는 클래스가 특정한 기능을 제공할 것이라는 계약(Contract)을 정의하며, 이를 통해 코드의 일관성을 유지하고 재사용성을 높일 수 있습니다.

인터페이스의 개념

인터페이스는 일반적으로 다음을 포함합니다:

메소드 서명(Signature): 메소드의 이름, 매개변수, 반환 타입 등을 명시합니다.
속성(Property): 클래스가 가져야 할 속성을 정의합니다.

인터페이스는 구현을 포함하지 않으며, 인터페이스를 상속받는 클래스는 해당 인터페이스에서 정의된 모든 메소드와 속성을 구현해야 합니다.

class CustomSequence:
    def __len__(self):
        return 10
    
    def __getitem__(self, index):
        return index * 2

seq = CustomSequence()
print(len(seq))        # 10
print(seq[3])          # 6

abc 모듈 (추상 기반 클래스)

Python의 abc 모듈은 추상 기반 클래스를 정의하는 기능을 제공합니다. 추상 클래스는 하나 이상의 추상 메소드를 포함할 수 있으며, 이러한 메소드는 서브클래스에서 반드시 구현해야 합니다. 이를 통해 공통 인터페이스를 정의하고 구현 강제를 할 수 있습니다.

추상 클래스 정의

추상 클래스는 ABC 클래스를 상속받고, 추상 메소드는 @abstractmethod 데코레이터를 사용하여 정의합니다.

from abc import ABC, abstractmethod

class Animal(ABC):
    @abstractmethod
    def sound(self):
        pass

class Dog(Animal):
    def sound(self):
        return "Bark"

추상 클래스의 역할

공통 인터페이스 정의: 추상 클래스는 여러 구체적인 클래스가 반드시 구현해야 하는 메소드와 속성을 정의합니다. 이를 통해 모든 서브클래스가 동일한 인터페이스를 가지게 됩니다.
코드 재사용성 증가: 추상 클래스는 공통 기능을 한 곳에 모아서 구현할 수 있습니다. 이를 상속받는 구체적인 클래스들은 이러한 공통 기능을 재사용할 수 있습니다.
유지보수성 향상: 코드를 수정할 때, 공통 기능은 추상 클래스에서 한 번만 수정하면 되므로 유지보수성이 높아집니다.
다형성 지원: 동일한 인터페이스를 통해 다양한 클래스와 상호작용할 수 있게 하여 다형성을 지원합니다.

from abc import ABC, abstractmethod

class Animal(ABC):
    def __init__(self, name):
        self.name = name

    @abstractmethod
    def sound(self):
        return "Some generic animal sound"

    @abstractmethod
    def move(self):
        return "Some generic animal movement"

    def display_info(self):
        print(f"{self.name} says {self.sound()} and {self.move()}")

class Dog(Animal):
    def sound(self):
        return "Bark"

    def move(self):
        return "Runs"

class Cat(Animal):
    def sound(self):
        return "Meow"

    # move 메소드를 재정의하지 않음

class Fish(Animal):
    # sound 메소드를 재정의하지 않음

    def move(self):
        return "Swims"

# 동물원 관리 시스템
class Zoo:
    def __init__(self):
        self.animals = []

    def add_animal(self, animal: Animal):
        self.animals.append(animal)

    def show_all_animals(self):
        for animal in self.animals:
            animal.display_info()

# 동물원에 동물 추가
zoo = Zoo()
zoo.add_animal(Dog("Buddy"))
zoo.add_animal(Cat("Whiskers"))
zoo.add_animal(Fish("Nemo"))

# 모든 동물 정보 표시
zoo.show_all_animals()

실행 결과

Buddy says Bark and Runs
Whiskers says Meow and Some generic animal movement
Nemo says Some generic animal sound and Swims

예제에서는 추상클래스 "Animal"을 선언하고 각각 Dog, Cat 그리고 Fish 클래스가 이를 상속하도록 했습니다.

구체적인 클래스 Zoo 에서 Dog, Cat 그리고 Fish 오브젝트를 생성하였으며 여기서 모든 동물들에게 상속받은 추상 클래스 display_info를 호출하면 실행 결과를 출력하게 됩니다.

추상클래스는 다중 상속도 가능합니다.

from abc import ABC, abstractmethod

class Printable(ABC):
    @abstractmethod
    def print(self):
        pass

class Scannable(ABC):
    @abstractmethod
    def scan(self):
        pass

class MultifunctionPrinter(Printable, Scannable):
    def print(self):
        return "Printing document"

    def scan(self):
        return "Scanning document"

# MultifunctionPrinter 클래스는 Printable과 Scannable의 추상 메소드를 모두 구현해야 합니다
mfp = MultifunctionPrinter()
print(mfp.print())  # "Printing document"
print(mfp.scan())   # "Scanning document"

MultifunctionPrinter에 Printable와 Scannable 추상 클래스를 다중 상속 하고 있습니다.

일반 메서드의 경우, 서브클래스에서 재정의하지 않으면 상속된 메서드를 그대로 사용할 수 있습니다. 즉, 서브클래스는 필요에 따라 메서드를 재정의할 수도 있고, 그렇지 않으면 상위 클래스에서 정의된 메서드를 사용할 수 있습니다.

그러나 추상 클래스에서 정의된 추상 메서드는 특별한 경우입니다. 추상 메서드는 기본적으로 구현되지 않은 메서드입니다. 따라서 추상 클래스에서 추상 메서드를 정의하면, 이를 상속받는 클래스는 반드시 그 추상 메서드를 재정의하여 구현해야 합니다. 그렇지 않으면 해당 서브클래스는 추상 클래스로 간주되어 인스턴스화할 수 없습니다.

from abc import ABC, abstractmethod

class AbstractClass(ABC):
    @abstractmethod
    def abstract_method(self):
        pass

    def concrete_method(self):
        print("This is a concrete method from the abstract class.")

class ConcreteClass(AbstractClass):
    def abstract_method(self):
        print("This is the implementation of the abstract method.")

# 인스턴스 생성
instance = ConcreteClass()
instance.abstract_method()  # This is the implementation of the abstract method.
instance.concrete_method()  # This is a concrete method from the abstract class.

추상 클래스의 목적은 인터페이스를 정의하고, 특정 메서드를 서브클래스에서 반드시 구현하도록 강제하는 것입니다. 이를 통해 코드의 일관성을 유지하고, 서브클래스가 필요한 기능을 올바르게 구현하도록 보장합니다.

직접 ABC를 정의할 수 있지만 가능하면 collections.abc나 파이썬 표준 라이브러리의 모듈에서 상속해서 써라!

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

연산자 오버로딩 (0)	2024.07.09
추상클래스의 활용 (0)	2024.06.12
Python 데코레이터 (0)	2024.05.21
seaborn clustermap color label (0)	2022.05.24
flask_sqlalchemy (0)	2022.05.23

Slurm 설치

바닐라스카이 2024. 6. 5. 12:53

2024. 6. 5. 12:53

SLURM 이란

SLURM(Simplified Linux Utility for Resource Management)은 대규모 병렬 컴퓨팅 환경에서 작업 스케줄링과 리소스 관리를 위한 오픈 소스 클러스터 관리 시스템입니다. SLURM은 슈퍼컴퓨터와 대규모 클러스터에서 사용되며, 사용자가 제출한 작업을 효율적으로 스케줄링하고 자원을 배분하는 역할을 합니다. 주요 기능으로는 작업 큐잉, 우선순위 스케줄링, 자원 할당, 작업 모니터링 등이 있습니다.

SLURM 설치 방법

여기서는 SLURM을 설치하고 설정하는 절차를 단계별로 설명합니다.

설치를 위한 절차

1. 컨트롤 서버와 노드 서버를 결정

먼저, SLURM 클러스터에서 컨트롤 서버와 노드 서버를 결정합니다. 컨트롤 서버는 SLURM의 중앙 관리 노드로, 작업 스케줄링과 자원 관리를 담당합니다. 노드 서버는 실제로 작업이 실행되는 컴퓨팅 노드입니다.

2. MUNGE 설치 및 설정

MUNGE(Munge Uid 'N' Gid Emporium)는 SLURM에서 인증을 처리하는 데 사용됩니다. 모든 컨트롤 서버와 노드 서버에 MUNGE를 설치하고 설정합니다.

2.1. MUNGE 설치

모든 서버에서 MUNGE를 설치합니다.

sudo apt install -y munge libmunge-dev

2.2. MUNGE 키 생성 및 배포

컨트롤 서버에서 MUNGE 키를 생성하고, 모든 노드 서버로 배포합니다.

# 컨트롤 서버에서 MUNGE 키 생성 
sudo /usr/sbin/create-munge-key 
# MUNGE 키 파일을 모든 노드 서버로 복사 
sudo scp /etc/munge/munge.key user@node-server:/etc/munge/

2.3. MUNGE 키 파일 권한 설정

각 노드 서버에서 MUNGE 키 파일의 권한을 설정합니다.

sudo chown munge:munge /etc/munge/munge.key 
sudo chmod 400 /etc/munge/munge.key

2.4. MUNGE 데몬 시작 및 활성화

모든 서버에서 MUNGE 데몬을 시작하고 부팅 시 자동으로 시작되도록 설정합니다.

sudo systemctl enable munge 
sudo systemctl start munge

3. SLURM 설치

3.1. 컨트롤 서버에 SLURM 설치

컨트롤 서버에서 SLURM 컨트롤 데몬(slurmctld)을 설치합니다.

sudo apt install -y slurm-wlm

3.2. 노드 서버에 SLURM 설치

모든 노드 서버에서 SLURM 데몬(slurmd)을 설치합니다. 컨트롤 서버에서도 작업을 실행하려면 SLURM 데몬도 함께 설치합니다.

sudo apt install -y slurmd

4. slurm.conf 설정

SLURM의 주요 설정 파일인 slurm.conf를 작성합니다. 이 파일은 클러스터의 구성과 동작을 정의합니다.

# slurm.conf file generated by configurator.html. 
# Put this file on all nodes of your cluster. 
# SLURM 컨트롤러 노드의 호스트 이름 
ControlMachine=controller 

# 인증 방법 설정 
AuthType=auth/munge 

# SLURM 데몬이 사용할 포트 설정 
SlurmdPort=6818 SlurmctldPort=6817 

# 상태 정보 저장 위치 설정 
StateSaveLocation=/var/spool/slurm-llnl/state 
SlurmdSpoolDir=/var/spool/slurmd 

# 프로세스 추적 방법 설정 
ProctrackType=proctrack/cgroup 

# 노드가 서비스로 돌아가는 방식을 제어 
ReturnToService=1 

# 스케줄링 메커니즘 설정 
SchedulerType=sched/backfill 

# SLURM 데몬의 로그 파일 위치 설정 
SlurmdLogFile=/var/log/slurmd.log 
SlurmctldLogFile=/var/log/slurmctld.log 

# SLURM 데몬의 PID 파일 위치 설정 
SlurmctldPidFile=/run/slurm/slurmctld.pid 
SlurmdPidFile=/run/slurm/slurmd.pid 

# 작업 자격 증명에 사용할 키 설정 
JobCredentialPrivateKey=/var/spool/slurm-llnl/cred_priv.pem 
JobCredentialPublicCertificate=/var/spool/slurm-llnl/cred_pub.pem 

# SLURM 데몬의 시간 초과 값 설정 
SlurmdTimeout=300 
SlurmctldTimeout=300 

# 노드 선택 메커니즘 설정 
SelectType=select/cons_tres 
SelectTypeParameters=CR_Core_Memory 

# 작업 관리 플러그인 설정 
TaskPlugin=task/affinity 

# 클러스터 이름 설정 
ClusterName=my_cluster 

# 클러스터의 노드 설정 
NodeName=node[1-4] CPUs=16 RealMemory=64000 State=UNKNOWN 

# 클러스터의 파티션 설정 
PartitionName=debug Nodes=node[1-4] Default=YES MaxTime=INFINITE State=UP

5. cgroup.conf 설정 (GPU 사용 시)

GPU 자원을 관리하려면 cgroup.conf 파일을 설정해야 합니다.

예제: cgroup.conf

CgroupAutomount=yes 
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup" 
ConstrainCores=yes 
ConstrainRAMSpace=yes 
ConstrainDevices=yes 
AllowedDevicesFile="/etc/slurm-llnl/cgroup_allowed_devices_file.conf"

예제: cgroup_allowed_devices_file.conf

/dev/nvidiactl 
/dev/nvidia-uvm 
/dev/nvidia0 
/dev/nvidia1 ...

6. 설정 파일 배포

작성한 slurm.conf와 cgroup.conf 파일을 모든 노드 서버로 배포합니다.

scp /etc/slurm-llnl/slurm.conf user@node-server:/etc/slurm-llnl/ 
scp /etc/slurm-llnl/cgroup.conf user@node-server:/etc/slurm-llnl/ 
scp /etc/slurm-llnl/cgroup_allowed_devices_file.conf user@node-server:/etc/slurm-llnl/

요약

이 포스트에서는 SLURM 설치 및 설정 절차를 다루었습니다. 다음은 간단한 요약입니다:

컨트롤 서버와 노드 서버를 결정.
모든 서버에 MUNGE 설치 및 설정.
컨트롤 서버에 slurmctld 설치, 노드 서버에 slurmd 설치.
slurm.conf 설정 파일 작성.
GPU 사용 시 cgroup.conf 설정 파일 작성.
설정 파일을 모든 서버에 배포.

이 단계를 통해 SLURM 클러스터를 구축하고 관리할 수 있습니다. SLURM을 통해 대규모 병렬 컴퓨팅 환경에서 효율적으로 작업을 스케줄링하고 자원을 관리할 수 있습니다.

주의할 점.

1. munge나 slurm을 실행할 때 로그 파일의 디렉토리가 생성되어 있지 않으면 에러가 날 수 있습니다.

2. 클러스터 노드의 CPU, Memory 등을 설정하기 위해서 $lscpu와 $free -m 명령어를 사용하여 노드의 자원 상태를 파악할 수 있습니다.

3. 설정 파일(slurm.conf, cgroup.conf, munge.key) 등이 노드 서버로 복사 된 이후에 서비스를 재시작하여야 합니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Dockerfile 작성하기 (1)	2024.09.15
Docker 사용하기 (0)	2024.09.15
사용자 계정 관리 및 조직의 구조화 툴 (LDAP) (0)	2024.05.17
Docker와 MariaDB연결하기 (0)	2022.08.24
centos 8에 slurm 설치하기 (0)	2022.05.11

Python 데코레이터

바닐라스카이 2024. 5. 21. 16:48

2024. 5. 21. 16:48

** 이 기능에 대해 '데코레이터'라는 명칭을 선택한 것에 대해 불만이 많았다. 그중 GoF 책에서 사용하는 용어와 일치하지 않는다는 불만이 가장 컸다. 데코레이터라는 명칭은 구문 트리를 파싱하고 애너테이션하는 컴파일러 분야에서의 용법과 관련이 더 깊다. _ PEP 318 - '함수 및 메서드 데코레이터'

특징	Python 데코레이터	GoF 데코레이터
주체	함수 또는 메서드	객체
목적	함수의 동작 변경/확장	객체의 동작 변경/확장
사용 방법	함수 위에 @데코레이터 사용	객체를 감싸는 데코레이터 객체 생성

Python 데코레이터는 하나의 함수(또는 메서드)를 다른 함수로 감싸서 추가 기능을 제공하는 도구입니다. 데코레이터는 함수의 동작을 수정하거나 확장할 때 유용합니다. 기본적인 형태는 다음과 같습니다:

기본적인 데코레이터 구조:
- 데코레이터 함수는 다른 함수를 인자로 받아서 새로운 함수를 반환합니다.
사용법:
- 데코레이터를 적용하려는 함수 위에 @데코레이터_이름을 붙입니다.
응용 사례:
1. 로그 기록: 함수 호출과 결과를 기록하여 디버깅과 모니터링에 활용.
2. 실행 시간 측정: 함수의 성능을 분석하고 최적화.
3. 인증 및 권한 부여: 함수 호출 전에 인증 및 권한 확인.
4. 캐싱: 함수의 결과를 캐시하여 성능 향상.

결국 데코레이터는 편리 구문(syntatic sugar)일 뿐이며 일반적인 콜러블과 동일하게 작동하지만 메타 프로그래밍을 할 때 편리합니다.

#1
@decorate
def target():
	print('running target()')
    
#2
def target():
	print('running target()')
target = decorate(target)

#1 와 #2는 본질적으로 같습니다.

하지만 #2의 방식은 아래 같은 단점이 있습니다.

가독성 저하: 함수 정의와 데코레이터 적용이 분리되어 코드가 장황해짐.
유지보수성 저하: 함수를 추가하거나 변경할 때 데코레이터 적용 부분도 수정해야 함.
실수 가능성 증가: 데코레이터 적용을 잊어버릴 가능성이 있음.
코드 중복 증가: 동일한 패턴의 반복으로 코드가 지저분해짐.
코드 일관성 문제: 함수 정의와 데코레이터 적용 방식이 일관되지 않음.

예제) 1. 로그 기록 데코레이터

def log_decorator(func):
    def wrapper(*args, **kwargs):
        print(f"Function {func.__name__} is called with arguments {args} and {kwargs}")
        result = func(*args, **kwargs)
        print(f"Function {func.__name__} returned {result}")
        return result
    return wrapper

@log_decorator
def add(a, b):
    return a + b

add(3, 5)

Function add is called with arguments (3, 5) and {}
Function add returned 8

예제) 2. 실행 시간 측정 데코레이터

import time

def timer_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Function {func.__name__} took {end_time - start_time} seconds to complete")
        return result
    return wrapper

@timer_decorator
def long_running_function():
    time.sleep(2)
    print("Function complete")

long_running_function()

Function complete
Function long_running_function took 2.0021233558654785 seconds to complete

데코레이터의 캐시 기능을 사용한 예제입니다.

import time

# 시간 차이를 계산하는 데코레이터 정의
def time_since_start(func):
    start_time = time.time()  # 데코레이터가 정의될 때 시작 시간을 기록

    def wrapper(*args, **kwargs):
        current_time = time.time()
        elapsed_time = current_time - start_time
        print(f"Time since start: {elapsed_time:.2f} seconds")
        return func(*args, **kwargs)
    
    return wrapper

# 데코레이터를 사용하여 함수 정의
@time_since_start
def example_function():
    print("Example function is called")

# 함수 호출
example_function()
time.sleep(2)
example_function()
time.sleep(3)
example_function()

출력 결과

Time since start: 0.00 seconds
Example function is called
Time since start: 2.00 seconds
Example function is called
Time since start: 5.00 seconds
Example function is called

임포트 타임에서 time_since_start 함수가 호출될 때 start_time 변수가 선언되고 이후에 데코레이터에서는 wrapper 함수가 호출되면서 처음 선언된 start_time과의 시간 차이가 리턴 값으로 얻어집니다.

실제 사용 예제입니다.

django에서는 @login_required 라는 데코레이터로 api 요청이 왔을 때 사용자 인증을 거치고,login 상태가 아니면 login 페이지로 리다이렉트 하는 데코레이터를 사용합니다.

login_required는 사전에 정의된 함수이며 코드는 아래와 같습니다.

# django/contrib/auth/decorators.py

from functools import wraps
from django.http import HttpResponseRedirect
from django.utils.decorators import available_attrs
from django.conf import settings

def user_passes_test(test_func, login_url=None, redirect_field_name='next'):
    """
    사용자 정의 테스트 함수를 통과하면 접근을 허용하는 데코레이터를 반환합니다.
    
    Args:
        test_func: 사용자 테스트 함수. 사용자 객체를 받아서 Boolean을 반환해야 합니다.
        login_url: 로그인 페이지 URL. 기본값은 settings.LOGIN_URL입니다.
        redirect_field_name: 리다이렉트 필드 이름. 기본값은 'next'입니다.
        
    Returns:
        view_func를 감싸는 데코레이터 함수.
    """
    if not login_url:
        login_url = settings.LOGIN_URL

    def decorator(view_func):
        @wraps(view_func, assigned=available_attrs(view_func))
        def _wrapped_view(request, *args, **kwargs):
            # 사용자 정의 테스트 함수로 사용자를 검사합니다.
            if test_func(request.user):
                return view_func(request, *args, **kwargs)
            # 테스트를 통과하지 못하면 로그인 페이지로 리다이렉트합니다.
            path = request.build_absolute_uri()
            from django.contrib.auth.views import redirect_to_login
            return redirect_to_login(path, login_url, redirect_field_name)
        return _wrapped_view
    return decorator

def login_required(function=None, redirect_field_name='next', login_url=None):
    """
    로그인된 사용자만 접근할 수 있도록 보호하는 데코레이터입니다.
    
    Args:
        function: 데코레이터가 적용될 함수. 생략할 수 있습니다.
        redirect_field_name: 로그인 후 리다이렉트할 때 사용할 GET 파라미터 이름. 기본값은 'next'입니다.
        login_url: 로그인 페이지 URL. 기본값은 settings.LOGIN_URL입니다.
        
    Returns:
        view_func를 감싸는 데코레이터 함수. function 인자가 주어지면 즉시 데코레이터를 반환합니다.
    """
    actual_decorator = user_passes_test(
        lambda u: u.is_authenticated,  # 사용자가 로그인되었는지 테스트합니다.
        login_url=login_url,
        redirect_field_name=redirect_field_name
    )
    if function:
        return actual_decorator(function)
    return actual_decorator

django에서 아래 같이 코드를 작성하면 my_view 함수를 실행하기 전 로그인 여부를 판단하고, 그에 따라 함수를 호출할지, 로그인 페이지로 이동할지 선택합니다.

# views.py
from django.contrib.auth.decorators import login_required
from django.http import HttpResponse

@login_required
def my_view(request):
    return HttpResponse("Hello, you are logged in!")

# urls.py
from django.urls import path
from . import views

urlpatterns = [
    path('my_view/', views.my_view, name='my_view'),
]

데이터를 다룰때 사용하는 dataclass 데코레이터도 있습니다.

from dataclasses import dataclass, field

@dataclass
class Person:
    name: str
    age: int = 30
    hobbies: list = field(default_factory=list)

# 사용 예
p1 = Person(name="Alice")
p2 = Person(name="Bob", age=25)
p3 = Person(name="Charlie", hobbies=["reading", "swimming"])

print(p1)  # 출력: Person(name='Alice', age=30, hobbies=[])
print(p2)  # 출력: Person(name='Bob', age=25, hobbies=[])
print(p3)  # 출력: Person(name='Charlie', age=30, hobbies=['reading', 'swimming'])

dataclass는 클래스에 __init__(), __repr__(), __eq__() 메서드를 자동으로 추가합니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > python' 카테고리의 다른 글

추상클래스의 활용 (0)	2024.06.12
프로토콜과 'abc' 모듈 (0)	2024.06.11
seaborn clustermap color label (0)	2022.05.24
flask_sqlalchemy (0)	2022.05.23
python 설치 (0)	2022.04.06

사용자 계정 관리 및 조직의 구조화 툴 (LDAP)

바닐라스카이 2024. 5. 17. 14:46

2024. 5. 17. 14:46

LDAP(Lightweight Directory Access Protocol)은 디렉토리 서비스를 제공하기 위한 애플리케이션 프로토콜입니다. 주로 네트워크 상에서 사용자, 그룹, 장치 등의 정보를 중앙에서 관리하고, 검색 및 수정할 수 있도록 설계되었습니다. 이를 통해 여러 시스템 간에 인증 및 권한 부여를 일관되게 수행할 수 있습니다. LDAP는 효율적인 디렉토리 데이터베이스로서, 기업 환경에서 사용자 계정 관리 및 조직의 구조화를 돕습니다.

LDAP(Lightweight Directory Access Protocol)의 여러 기능 중 하나는 사용자 계정을 구축하는 것입니다. 기본 개념은 LDAP 서버에 조직 및 사용자에 대한 구조화된 정보를 저장하고, LDAP 클라이언트에서 접속 요청이 오면 LDAP 서버에서 사용자 인증을 처리하는 것입니다. 이를 통해 여러 서버의 계정을 중앙에서 관리할 수 있습니다. LDAP 서버는 사용자의 인증, 권한 부여, 계정 정보 등의 중앙 집중화된 관리를 가능하게 합니다. 여러 서버와 애플리케이션이 LDAP 서버와 통신하여 사용자를 인증하고, 권한을 부여받으며, 필요한 계정 정보를 가져올 수 있습니다.

1. OpenLDAP 서버 설치

sudo apt-get install slapd ldap-utils

LDAP 서버로 사용할 서버에 접속해서 관련 라이브러리를 설치합니다.

2. OpenLDAP 서버 초기 구성

sudo dpkg-reconfigure slapd

이 명령어를 실행하면 몇 가지 설정 질문이 나타납니다:

DNS 도메인 이름: 예를 들어 example.com
조직 이름: 예를 들어 Example Inc
관리자 비밀번호 설정
데이터베이스 파일을 삭제할지 여부: 기본값을 유지 (No)
Move old database: 기본값을 유지 (Yes)
데이터베이스를 만들 수 있는 허용된 세션 수: 기본값을 유지 (No)

3. LDAP 디렉토리 구조 설정

LDAP 디렉토리 구조를 설정하려면 LDIF (LDAP Data Interchange Format) 파일을 사용합니다. 다음은 기본 디렉토리 구조를 설정하는 예입니다:

#base.ldif
# 조직의 루트 엔트리
dn: dc=example,dc=com
objectClass: top
objectClass: dcObject
objectClass: organization
o: Example Organization
dc: example

# 사용자 조직 단위
dn: ou=users,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: users

# 그룹 조직 단위
dn: ou=groups,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: groups

# IT 부서 조직 단위
dn: ou=IT,ou=users,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: IT

# HR 부서 조직 단위
dn: ou=HR,ou=users,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: HR

# 관리자 계정
dn: cn=admin,dc=example,dc=com
objectClass: simpleSecurityObject
objectClass: organizationalRole
cn: admin
description: LDAP Administrator
userPassword: {SSHA}PASSWORD_HASH

각 항목의 설명

dn (Distinguished Name):
- LDAP 디렉토리에서 엔트리를 고유하게 식별하는 이름입니다. 디렉토리 트리의 경로를 나타냅니다.
- 예: dn: dc=example,dc=com은 도메인 구성 요소가 example과 com인 루트 엔트리를 의미합니다.
objectClass:
- 엔트리의 유형을 정의합니다. 각 objectClass는 엔트리가 가질 수 있는 속성을 정의합니다.
- top: 모든 LDAP 엔트리가 상속하는 최상위 클래스입니다.
- dcObject: 도메인 구성 요소를 나타내는 클래스입니다.
- organization: 조직을 나타내는 클래스입니다.
- organizationalUnit: 조직 단위를 나타내는 클래스입니다.
조직 정보:
- o: 조직의 이름을 나타냅니다.
- dc: 도메인 구성 요소를 나타냅니다.
- 예: o: Example Organization, dc: example
조직 단위:
- ou: 조직 단위의 이름을 나타냅니다.
- 예: ou: users, ou: groups

PASSWORD_HASH 값은 아래 명령어로 생성한 다음에 붙여넣으면 됩니다.

slappasswd

base.ldif는 조직 구조에 따라 계층적 설계도 가능합니다.

# 조직의 루트 엔트리
dn: dc=example,dc=com
objectClass: top
objectClass: dcObject
objectClass: organization
o: example org
dc: example

# 사용자 조직 단위
dn: ou=users,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: users

# 그룹 조직 단위
dn: ou=groups,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: groups

# AI부문 조직 단위
dn: ou=AI,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: AI

# AI 연구개발 부서 조직 단위
dn: ou=RnD,ou=AI,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: RnD

# AI 전략기획 부서 조직 단위
dn: ou=SnP,ou=AI,dc=example,dc=com
objectClass: top
objectClass: organizationalUnit
ou: SnP

# 관리자 계정
dn: cn=admin,dc=example,dc=com
objectClass: simpleSecurityObject
objectClass: organizationalRole
cn: admin
description: LDAP Administrator
userPassword: {SSHA}PASSWORD_HASH

작성한 base.ldif 파일을 적용시킵니다.

sudo ldapadd -x -D cn=admin,dc=example,dc=com -W -f base.ldif

4. 사용자 및 그룹 추가

이제 새로운 사용자를 추가합니다.

#add_rnd_user.ldif
# 그룹 객체 생성
dn: cn=johndoe,ou=RnD,ou=AI,dc=example,dc=com
objectClass: top
objectClass: posixGroup
cn: johndoe
gidNumber: 5001

# 사용자 객체 생성
dn: uid=johndoe,ou=RnD,ou=AI,dc=example,dc=com
objectClass: inetOrgPerson
objectClass: posixAccount
objectClass: top
cn: John Doe
sn: Doe
uid: johndoe
uidNumber: 10001
gidNumber: 5001
homeDirectory: /home/johndoe
loginShell: /bin/bash
userPassword: {SSHA}PASSWORD_HASH
mail: johndoe@example.com

ldif 파일을 ldap 서버에 적용시킵니다.

sudo ldapadd -x -D "cn=admin,dc=example,dc=com" -W -f add_rnd_user.ldif

잘 적용되었는지 확인해 봅시다.

ldapsearch -x -LLL -b "dc=example,dc=com" "(objectClass=*)"

새로운 사용자가 생길때마다 add_user를 진행하면 되고 HASH값을 받아서 직접 사용자 계정을 생성해도 되지만 기본 비밀번호로 생성하고 사용자에게 직접 변경하도록 합니다.

사용자가 자신의 비밀번호를 변경하려면 아래처럼 작성합니다.

ldappasswd -x -D "uid=username,ou=users,dc=example,dc=com" -W

조직의 구조를 나누고 여기에 따른 각각의 권한을 가지도록 할 수도 있습니다. (~~나중에 추가~~)

LDAP 서버에서의 설정은 끝났습니다. 이제 이 설정을 적용할 LDAP 클라이언트 서버에서 이어서 작업합니다.

5. LDAP 클라이언트 설정

이 설정은 모든 클라이언트에서 각각 진행합니다.

LDAP 클라이언트 서버에서 libnss-ldap 및 libpam-ldap 패키지를 설치합니다:

sudo apt-get install -y libnss-ldap libpam-ldap ldap-utils nscd

이후에 파일을 수정해도 되지만, 설치 과정에서 나오는 ldap 주소 등을 정확하게 입력하면 수고를 줄일 수 있습니다.

nscd를 데몬으로 실행합니다.

sudo systemctl enable nscd
sudo systemctl start nscd

환경 설정 -

클라이언트에서 처음 로그인 한다면 홈 폴더가 없기 때문에 생성하는 설정을 추가합니다.

#/etc/pam.d/common-session
session optional pam_mkhomedir.so skel=/etc/skel umask=0077

계정이 있는지 ldap에서 확인하는 작업을 추가합니ㅏㄷ.

# /etc/nsswitch.conf
#
# Example configuration of GNU Name Service Switch functionality.
# If you have the `glibc-doc-reference' and `info' packages installed, try:
# `info libc "Name Service Switch"' for information about this file.

passwd:         files systemd ldap
group:          files systemd ldap
shadow:         files ldap
gshadow:        files

hosts:          files mdns4_minimal [NOTFOUND=return] dns
networks:       files

protocols:      db files
services:       db files
ethers:         db files
rpc:            db files

netgroup:       nis

먼저 로컬 계정이 있는지 확인하고 없으면 ldap를 확인하는 설정입니다.

설정이 잘 적용되었다면 아래 명령어로 호스트에서 가져온 정보가 포함되어있는지 확인합니다.

getent passwd
getent group

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Docker 사용하기 (0)	2024.09.15
Slurm 설치 (0)	2024.06.05
Docker와 MariaDB연결하기 (0)	2022.08.24
centos 8에 slurm 설치하기 (0)	2022.05.11
conda 채널 추가 (0)	2022.02.22

Docker와 MariaDB연결하기

바닐라스카이 2022. 8. 24. 21:48

2022. 8. 24. 21:48

Docker에서 MariaDB컨테이너 띄우기.

1. MariaDB 저장용 Volumne 컨테이너 만들기

Docker create -it -v /var/lib/mysql --name maria_vol busybox

MariaDB의 데이터베이스 저장은 /var/lib/mysql 아래에 저장되는데 Host 데이터와 직접 연결하는 것은 안정적이지 않기 때문에 volumn 컨테이너를 새롭게 만들어서 붙인다.

2. MariaDB 이미지 생성

docker pull mariadb

3. MariaDB run

docker run -d --name mymaria --volumes-from maria_vol -e MYSQL_ROOT_PASSWORD=1111 -p 3306:3306 mariadb

mymaria 라는 이름의 컨테이너를 생성했다.

이 컨테이너 안에서 데이터를 관리하면 된다!

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Slurm 설치 (0)	2024.06.05
사용자 계정 관리 및 조직의 구조화 툴 (LDAP) (0)	2024.05.17
centos 8에 slurm 설치하기 (0)	2022.05.11
conda 채널 추가 (0)	2022.02.22
conda proxy 에러 해결방법 (0)	2022.02.07

PREV 이전 1 ···3 4 5 6 7 8 9 ···20 NEXT 다음