기레기들 딱 기둘려

로봇 기사 작성 기술은 대체로 5가지 단계로 구성된다. 첫 번째는 데이터를 수집, 분석하는 단계이다. 로봇 저널리즘은 주로 표준화된 데이터가 풍부한 영역에서 활용된다. 예를 들면, 스포츠나 날씨, 증권 분야가 대표적이다. 표준화된 데이터를 얻기가 쉽고 그 형태도 비교적 깨끗한 것이 특징이다.

두 번째는 데이터에서 가치 있는 뉴스거리를 찾아내는 과정이다. 여기에는 통계적 방법론이 개입된다. 예를 들어 스포츠 뉴스에서 가장 의미 있는 정보는 통계적 일탈 지표를 먼저 확인하는 것이다. 최소치나 최고치 혹은 전 경기 대비 큰 변화를 보인 변수를 알고리즘은 계산해내야 한다. LA 다저스 투수 류현진 선수의 볼넷이 전 경기 대비 100% 증가했다는 데이터가 수집됐다면 뉴스 가치를 지닌 데이터로 분류하게 된다.

셋째는 어떤 각도로 기사를 작성할지 기사의 관점을 확정하는 단계다. 일반적으로 기자들이 제목을 뽑거나 기사의 주제를 확정하는 과정에 해당하는데, 이 또한 수집된 데이터의 분석을 통해 해결한다. LA 다저스가 슬럼프에 빠졌다거나 홈 경기 승률이 오락가락한다거나 하는 시각을 알고리즘이 데이터의 비교 분석을 통해 추출해낸다. 닉 디아코플로스 연구원은 “단일 기사에 대한 관점은 중요도에 따라 1~10까지 분류가 된다”고 설명했다.

다음으로는 최종 확정된 시각에 맞게 세부 기사를 배열하는 단계다. LA 다저스가 슬럼프에 빠졌다는 주제가 확정됐다면 그에 맞춰 근거가 되는 선수의 데이터를 제시하고 연결시킨다. 데이터만 풍부하다면 이 단계에서 외부 데이터를 더 끌어올 수 있고, 인용구도 만들어낼 수 있다고 한다. 데이터를 풍성하게 결합하는 프로세스가 진행되는 단계라고 요약할 수 있다.

마지막으로 자연어로 기사를 제작하는 단계이다. 닉 디아카풀로스 교수는 전체 과정 중에 가장 덜 복잡한 단계라고 언급했다. 확정된 관점, 연결된 데이터로 영어 문장을 구성하는데 기사 관점과 핵심 요소에 따라 반복적으로 재작성된다. 이렇게 제작된 영어 문장들은 서로 이어붙이기가 자동으로 진행되면서 완성된 하나의 기사로 탄생하게 되는 것이다.

닉 디아코풀로스 연구원은 “기사는 여러 설정에 의해 톤을 조정할 수도 있다”고 말했다. 비관적 기사, 심드렁한 형태, 신뢰를 강조하는 기사 등 설정된 논조에 따라 알고리즘은 선택하는 영어 단어도 바뀐다는 것. 이지옵에서 개발한 분석기를 활용하면 동일 단어를 유사 단어로 대체할 수도 있다는 것이 그의 설명이다.

그는 로봇 저널리즘 기술의 핵심은 뉴스 가치를 판단하는 알고리즘에 달려 있다고 강조한다. 기사 작성 템플릿 등은 핵심이 아니라는 것이다. 단순히 데이터 내 큰 편차에 주목해 뉴스 가치를 측정하는 현재의 알고리즘으로는 보다 폭넓은 관점을 담아내기 힘들다고 닉 디아코풀로스 연구원은 결론을 내렸다.


0