[더에듀] 인공지능(AI) 등 진보된 기술이 교육계에 본격 적용되는 시점을 맞이했다. 특히 AI 디지털교과서가 내년부터 본격 도입되고 이에 앞서 교육부는 올해 말까지 디지털 윤리 규범 제정도 추진하고 있다.
진보된 기술의 도입은 학습환경의 혁신적 변화를 가져올 것으로 기대를 받고 있지만, 사람 간의 관계를 중심으로 한 교육에의 도입에는 좀 더 신중을 기해야 한다는 의견도 나온다.
이에 <더에듀>는 <DX교육데이터협회>와 공동 기획 ‘AI와 디지털 교육’을 통해 교육부가 디지털 교육과 맞춤 교육 등의 정책 목표를 달성하기 위해 어떤 점에 유의해야 하는지 교사와 연구자, 기업인 등의 시선으로 이야기하고자 한다. |

인공지능이 본격적으로 우리의 삶에 도입되면서 데이터와 관련된 새로운 윤리 문제들이 많이 발생하고 있다.
인공지능의 개발과정에서 필요한 학습데이터의 의미와 중요성에 대한 인식이 강조되고 있으며, 기계학습의 딥러닝 과정에서 인공지능이 어떤 데이터로 학습했는지의 여부가 인공지능에 대한 평가의 중요한 기준이 되고 있다.
또한 데이터 자체가 편향적이거나 데이터 처리 과정에서 윤리적인 기준을 지키지 못했을 경우에 대한 데이터 책임의 문제가 실제로 발생하고 있다.
이외에도 개인정보유출, 딥페이크에 의한 데이터 오용, 데이터 소유권, 데이터 보안 등의 문제들이 현실사회에서 이미 발생하고 있다.

데이터 중심 사회가 형성되면서 데이터에 대한 윤리적 요구 사항은 영역을 넘나들며 표출되고 있다. 공적 영역에서는 사용되는 데이터가 성별이나 지역, 정치적 편향성을 가지고 있는지에 대하여 윤리적 검증을 요구하는 목소리가 나오고 있다. 그리고 사적 영역에서도 마찬가지로 개인의 정보와 관련된 데이터의 수집과 활용에 대한 윤리적 기준의 마련이 시급하다는 주장이 제기되고 있다.
기본적으로 데이터윤리는 데이터의 책임 있고 지속가능한 사용을 목적으로 한다. 이러한 목적을 달성하기 위해서 데이터윤리 가이드라인이 그러기 위한 전제 조건이 되어야 한다.
이때 데이터의 수집 및 처리 과정에서부터 결과에 대한 활용 전반에 걸쳐서 지켜져야 할 윤리 원칙들을 수립하고, 이에 근거하여 데이터윤리 가이드라인에 대한 사회적 합의가 도출되어야 한다.
개인의 프라이버시 보호와 공적 데이터의 수집과 활용 사이의 갈등, 데이터 주권과 오픈 데이터의 갈등 등에 대한 윤리적 판단과 기준에 대한 요청이 앞으로 더욱 갈등을 일으킬 것이다.
데이터윤리란 ‘개발자, 관리자, 사용자가 데이터를 사회의 공공선을 위해 활용할 때 데이터의 각 주체의 권리를 보호하고자 데이터 수집부터 폐기까지의 전 과정에서 책임을 다하고 윤리적 문제가 발생했을 때 그 결과에 대하여 또한 책임을 다하려는 응용윤리의 한 분야’이다.
데이터윤리는 데이터 권리와 데이터 책임으로 구성된다. 우선, ‘데이터 권리’는 데이터가 어디로부터 생산되었는가와 직접적으로 연관되어 있어 데이터의 출처에게 부여될 수 있는 것이지만, 그럼에도 인공지능과 빅데이터의 발전으로 데이터의 공유와 개방으로 사회의 공공성을 보장할 수 있다는 측면에서 공공의 권리로 환원되기도 한다고 볼 수 있다.
그러므로 데이터 권리의 사적 성격과 공적 성격사이의 균형점을 찾아가는 과정은 데이터윤리에서 대단히 주요한 과제라고 여겨진다.
그리고 ‘데이터 책임’은 데이터로 인해 발생되는 윤리적 쟁점들에 어떻게 대응할 것인가에 연관되어 있는 것이다. 결국 데이터 책임은 데이터 주체들이 여타의 데이터윤리의 핵심 가치들을 충분히 고려하도록 하여 궁극적인 목표를 이룰 수 있도록 하는 기반에 해당하기에 또 하나의 필수 사항이라고 볼 수 있다.

최근에 인공지능 학습용 데이터의 비윤리적 성격으로 인하여 데이터의 윤리적 정제(the ethical cleaning of data)의 필요성, 데이터 수집에서의 윤리적 절차 수립의 필요성이 강조되고 있는 실정이다.
데이터 정제(data cleaning)는 기본적으로 잘못된 데이터의 감지, 진단 및 수정하는 과정(process of detecting, diagnosing, and editing faulty data)을 의미한다. 그리고 윤리적 정제는 데이터의 내용적 차원에서 혐오나 증오 표현, 차별 등의 비윤리적 요소의 제거 과정이라고 할 수 있다.
이를 위해서는 데이터 등급제가 전제되어야 하겠지만, 데이터윤리의 차원에서는 투명성, 책임성, 공정성이 매우 중요한 가치로 강조될 수 있다. 따라서 이와 같은 윤리적 가치를 포괄할 수 있는 데이터윤리 가이드라인이 새롭게 마련되어야 한다.

데이터윤리 가이드라인에서는 데이터 권리와 데이터 책임의 이원적 범주 형태에서 다음과 같은 기준들이 제시될 수 있다.
첫째는 ‘프라이버시 보호’로 데이터에 대한 접근은 필수적으로 프라이버시에 대한 개방을 요구하는 것과 같으므로 데이터가 누구의 소유인지와 어느 정도의 범위로 보호되어야 하는 문제가 발생할 때 개인정보를 최대한 보호할 수 있도록 하는 것이 중요하다.
둘째는 ‘공공성’으로 데이터윤리의 최대 원칙 중 하나인 프라이버시 보호와 가치 갈등 관계가 있지만, 데이터의 활용이 사회에 막대하게 긍정적인 효과를 가져올 잠재력이 있다는 점에서 고민되어야 하는 요소이다.
셋째 ‘공정성’으로 데이터 활동으로부터 발생하는 총체적인 이해(利害)를 어떻게 공정하게 분배할 것인가를 논할 수 있다.
넷째는 ‘피해 최소화’로 비윤리적인 데이터 사용으로부터 발생되는 피해를 최소화할 수 있도록 해야 한다는 관점이 담겨 있다.
다섯째는 ‘신뢰성’으로 이는 데이터의 품질에 대한 보장 또는 데이터 처리 과정에 대한 믿음과 연결될 수 있다.
여섯째는 ‘연대성’으로 데이터의 수집, 사용, 공유에서의 모든 이해관계자들이 데이터 거버넌스를 공동 조직하여 데이터윤리를 보호해야 함을 의미한다.
일곱째는 ‘투명성’으로 데이터 권리 소유자들이 데이터 처리 과정에 대해서 요구할 때 모든 것을 설명할 수 있도록 해야 함을 말한다.
여덟째는 ‘검토의 지속가능성’으로 결국 상기 핵심 가치들이 보장되는지 지속적으로 피드백하고 반성하여 보완될 수 있도록 하는 역할을 한다.
아홉째는 ‘안전성’으로 검토의 지속가능성과 마찬가지로 다른 핵심 가치들을 보장하기 위해 데이터를 어떻게 보호할 것인가를 다룬다.
정보혁명 시대라는 타이틀은 결국 정보, 즉 데이터가 얼마나 이 사회에서 중요한 역할을 담당하는가를 단적으로 드러내고 있다. 데이터는 모든 소프트웨어를 운용하기 위한 식수 자원으로서 녹슨 파이프로부터 공급되어서는 안 된다. 이를 방지하기 위해서 녹 방지제로서의 데이터윤리가 필수적으로 요청된다.
특히나 소프트웨어의 진화는 기어코 수십 년 전에 공상과학쯤으로 여겨지던 인공지능을 과학기술 사회의 중심으로 가져다 놓았다. 원리 자체가 데이터로부터 익히는 기계학습이므로 학습 속도가 남다른 인공지능에게 데이터는 식수 그 이상일 수도 있다.
따라서 데이터윤리에 대한 모색은 빅데이터 시장이 활성화된 그 시기보다 더욱 중요해졌다고 해도 과언이 아닐 것이다.
# DX교육데이터협회와 진행한 'AI와 디지털 교육' 연재를 마칩니다. 그동안 애독해주신 독자 분들과 집필에 참여해주신 DX교육데이터협회 회원분들께 감사의 말씀 드립니다.