International Symposium on Methodologies for Intelligent Systems 2005

출장 기간 : 2005년 5월 23일 ~ 5월 30일

이번 출장은 대학원에 입학한 후 8번째 떠나는 것이라 그다지 큰 걱정은 되지 않았다. 출발 당일 아침 연구실에서 막바지 준비를 마무리하고 곧바로 공항으로 향했다. 공항에 도착하면 맨 먼저 하는 것이 병무와 관련한 출국신고! 다행히도 인터넷으로 귀국보고를 할 수 있다고 하니 돌아오는 날 들르지 않아도 되겠다 싶어 마음이 편했다. 비행기를 탄지 17시간이 지난 후에 드디어 뉴욕 JFK 공항에 도착했다. 매우 지루한 비행이었다. 말로만 듣던 지문채취와 사진 촬영을 하고 입국 심사를 마치고 숙박 장소로 곧장 이동했다. 숙박은 Flushing에 위치한 YMCA 건물에서 했는데, 주변이 한인지역이라 한국을 그대로 옮겨 놓은 듯 해서 심적으로 편하게 다닐 수 있었다.

뉴욕은 고층빌딩이 숲을 이루고 있어 길을 찾기가 쉽지 않았다. 짧은 관광을 마치고  곧장 기차역으로 이동했다. 한국에서 기차표를 예매해 놓고 갔기 때문에 수월하게 이동할 수 있었다. 이번에 학회가 열린 Saratoga는 매우 작은 시골도시이지만 경마로 유명해서 여름에는 모든 가격이 치솟을 정도로 사람들로 붐빈다고 한다. 인터넷으로 예약해둔 호텔이 학회장에서 다소 먼 곳에 있어 늘 택시를 이용해야 했다. 학회장으로 이동하는 것이 좀 불편했지만 넓은 방과 (비교적 저렴한 가격에) 조용한 시골분위기가 마음에 들어 호텔을 바꾸지 않고 계속 머물렀다.

학회가 시작되는 날 학회장의 규모가 매우 작아서 놀랐다. 지금까지 참석한 학회들이 대부분 100명 이상의 사람들이 참석해서 이루어지는데 비해 이 학회는 대략 50명~70명 정도의 사람만이 학회장에서 발표를 듣고 있었다. 첫 초대발표는 Columbia 대학의 Salvatore J. Stolfo 교수님의 침입탐지 시스템에 관한 것이었다. 그 분은 침입탐지 시스템을 설계하는 패러다임을 "패턴에 기초한 것과" "패턴을 사용하지 않는 것"으로 나누어 설명하셨다. "패턴에 기초한 것"은 사전에 침입 유형을 패턴형태로 저장해 놓았다가 나중에 의심스러운 행동패턴과 저장해 놓은 패턴을 비교한 후 침입여부를 결정하는 것이다. 반면 후자는 감사자료 등을 이용하여 정상행위를 학습하고 이와 벗어나는 것을 침입으로 간주하는 방법이었다. 현재 진행 중이신 연구는 확률에 기초한 정상행위 모델링으로서 이벤트 사이의 조건부 확률을 저장해 놓았다가 이를 바탕으로 비정상 행위를 탐지하였다.

틈틈이 스크립트를 외웠는데 막상 발표자리에 서니 많은 부분 잘 이용하질 못했다. 좌장이 음악으로부터 특징을 추출하는 쪽 연구로 박사학위를 받은 사람이라 시간을 고려한 데이터 처리도 다루었는지 물어봐서 현재는 정적인 데이터만 다루고 있다고 답했다. 환영 리셉션에서 주로 프랑스 이탈리아 등 유럽사람들과 이야기를 나누었다. 대부분이 박사과정에 재학중인 학생들이라 관심사도 비슷해서 이야기하기 편했다. 프랑스 사람들과 이야기를 나눠본 적이 없어서 잘 몰랐는데 우리와 통하는 부분도 많이 있고 동양 문화에 관심도 많이 있었다. 한글에 대한 이야기가 나왔는데 한글이 몇 개의 기본 글자로 이루어졌는지 몰라서 부끄러웠다. 한글은 자음 19개와 모음 21개로 이루어졌으며 총 40개의 기본 알파벳으로 구성되어 있다. 내가 발표할 때 좌장을 맡았던 폴란드 분이 현재 하고 있는 연구가 음악파일이 어떤 감정과 깊이 관련되어져 있는지를 분류하는 것이라 많은 이야기를 나누었다. 음악 파일로부터 특징을 추출한 후 (여러 가지 방법이 있었다.) K-nearest neighbor 분류기를 사용하여 "행복한" "낭만적인" "열정적인" "극적인" 등 6개의 클래스 중 하나를 맞추는 것이었다. 우리 연구실에서 수행했던 Interactive Genetic Algorithm관련 연구와 Proceedings of the IEEE에 실린 논문을 소개해 주었다.

  

다음날 초대 발표는 CMU의 언어 기술원의 Jaime Carbonell 교수님이었다. CMU학생에게 들은 바로는 매우 많은 프로젝트를 이끌고 있으며 리더쉽을 발휘하고 있는 분이라고 한다. 단백질의 구조를 amid acid 시퀀스로부터 예측하는 문제를 텍스트 분류하는 기법을 이용하여 풀었다. n-gram을 이용하여 단백질 시퀀스 정보를 변환한 후 (n-gram은 매우 쉬운 개념이다. 문장중의 공백을 모두 제거하고 남아 있는 단어들에 대해 n개의 연속적인 부분 시퀀스를 나타낸다. "Good morning"을 3-gram을 사용하면 "Goo" "ood" "odm" "dmo" 등으로 계속 반복된다.) n-gram을 사용하여 단백질 시퀀스로부터 길이가 n인 여러 개의 부분 시퀀스를 뽑아냈으며 이것들 중에서 분류에 도움이 될 중요한 특징들만 선택하는 특징 선택과정을 거친다. 여기에서는 chi-square를 사용했다. 마지막으로 naive Bayes와 KNN 분류기를 사용하여 90% 이상의 인식률을 얻었고 이것이 현재로서는 state-of-the-art 수준이라고 한다. (단백질 구조는 가장 크게 super-family로 나누어지며 각 family마다 여러 개의 sub-family 그룹으로 나누어진다. 현재 분류가 어느 수준에서 이루어지고 있는지를 Level I, Level II 등의 용어로 나타낸다.)  우리가 하고 있는 유전자 분류와 비슷한 맥락에서 접근해 볼 수 있겠다는 생각이 들었다. 가장 최종적인 목표는 유전자 시퀀스 (ACTG로 이루어진 시퀀스)가 어떤 단백질 구조를 이루는가를 예측하는 것이라고 하는데 현재는 유전자 시퀀스가 Amino acid 서열로 바뀐 것을 가지고 예측을 하고 있다고 한다. 궁극적으로 유전자 시퀀스에 어떤 변화가 생기면 어떻게 단백질 구조가 바뀌고 그것이 치명적인지를 알 수 있으면 많은 병을 진단하고 예측하는데 유용하게 쓰일 수 있다고 한다.

C. Lee Giles 그룹에서는 현재의 웹 문서가 너무 많은 불 필요한 정보들 (광고, Navigation bar, 저작권 알림 등)로 이루어져 있어 중요한 key content를 찾기가 어렵다는 문제를 제기하고, 웹 문서로부터 중요한 content block을 찾아내는 특징 추출 방법을 제안했다. 이탈리아에서 진행중인 C@SA 프로젝트는 우리가 하고 일과 매우 유사했다. 이 팀은 VRML을 이용하여 가상의 집을 만들고 그 안에 사람, 창문, TV, 에어콘, 온도계 등을 모델링했다. 현재 환경의 습도와 온도 그리고 사용자의 상태 (이건 유비쿼터스 옷을 통해 사용자의 상태를 체크한다.) 등을 바탕으로 창문을 열지 에어콘을 틀지 등을 결정하는데 decision network (Bayesian network + utility function + action)를 사용하였다. 캐나다의 York 대학 교수가  agglomerative clustering 사용하여 사용자 session DB를 유사한 것 끼리 묶는 연구를 발표했는데, 클러스터 개수를 결정하는 threshold 값을 어떻게 정할지 난감하다고 해서 mojena의 규칙을 알려줬다.

프랑스, 핀란드, 벨기에, 폴란드, 루마니아, 덴마크, 호주, 미국, 한국, 일본, 중국, 이탈리아 등 많은 나라의 사람들을 만나고 이야기를 나눠 볼 수 있었으며 견문을 넓힐 수 있었다. 학회를 통해 기술적인 부분에 대해 보다 이해를 넓히는 것도 중요하지만 그것과 함께 많은 다른 나라 사람들을 사귀고 이야기하는 것도 매우 중요한 요소임을 배울 수 있었다. 가끔 어려움을 겪긴 했지만 영어로 이야기하는 것도 계속 하면 수가 생긴다는 느낌을 받았다. 몇몇 영어 발음을 외국인이 알아듣지 못한다는 걸 알았고 교정할 수 있었다.