logo


i[at]kazushi.info
Department of Media Architecture
Future University-Hakodate
116-2 Kameda Nakanocho
Hakodate, Hokkaido 041-8655 JAPAN

 
 LOGIN
 Languages
 MAIN MENU
 LINK
 SEARCH

高度な検索
shizuka 03 [ja]
人工知能画家 静 3号









京都市立芸術大学大学院博士課程(メディアアート領域) 学位授与作品
平成15年度未踏開発ソフトウェア創造事業 採択
インタラクション2004インタラクティブ発表 採択




京都市立芸術大学博士課程
学位論文
2004
67page(20.54 MB)


document video 1
2003.12.05
at Kyoto City University of Arts
2min 59sec(12MB)



document video 2
2004.02.15
at Tokyo International Forum
1min 52sec(10MB)



document video 3
2004.02.15
at Tokyo International Forum
2min 54sec(9.85MB)

1.はじめに
静(しずか)は、プログラム自体が絵を自律的に描くソフトウェアである。しかし、これは人が絵を描かなくてもよい便利な機械を作ること目的としているわけではない。むしろ、人が絵を描く行為を深く考察する行為なのである。描画行為をプログラムに行わせることは,逆に絵を描くこととはどういうことなのかを深く考えることにつながる。この試みによって、なぜ人間は絵を描くことが出来、また鑑賞し、理解できるのかということ
での絵画が本来的に持つ役割を改めて考えてみたいと思っている。創作行為のモデル化自体は非常に大変なことで、今後も制作を続けていく予定でいる。今回はユーザーの描いた線描を解釈して、それに人工知能が「考えた」線描を新たに加えるという「連想」という人間の想像力に注目した「お絵かきソフト」の開発を目指した。

2.人工知能画家
人工知能画家のコンセプト自体は私のオリジナルではない。すでにカリフォルニア大学サンディエゴ校美術学部名誉教授であるハロルド・コーエンによって30 年も前からアーロン[1]という人工知能画家がつくられている。しかし、私は彼と交流と続けるうちに人工知能画家は一つのジャンルとしてさまざまな人が研究する価値があると考えた。
それぞれの描画手順をプログラムするという行為は実のところ人によってさまざまな考え方があるからである。アーロンはコーエンの画家としての考えや描画手順をプログラムにすることで成り立っている。この意味ではアーロンはコーエンの洗練された半自律機械といえる。しかし、私が考えたいことは個性そのものである。だから、私はプログラムそのものが経験を重ね、自らスタイルを確立していく存在にしたいと考えた。つまり、静
は自らが鑑賞者によって描かれる無作為の線描を自らの知識として獲得しそれによって自分の線描を再表現するモデルである。

3.認知プリミティブ
鑑賞者によって描かれた線描は認知プリミティブと名づけたデータに変換される。認知プリミティブとは、単体では鑑賞者に意味の喚起は促すが明確な意味を表さない図形のことを指す。また、認知プリミティブ同士はお互いにどこにつながり、どのくらいの大きさでつながるかの相対関係を保持しており、その相対関係をもつ認知プリミティブ同士を配置すると明確な意味を表す図形になる。


図 1 認知プリミティブによる表現

4.意味を表す図形
我々はある程度同じ意味を持つ図形を共有している。例えば、顔を表す図形はほぼ同じように輪郭の中に目、鼻、口などを描く。このことに注目して、認知プリミティブに変換してみると、その相対関係に一定の規則があることが分かった。


図 2 顔のイメージの相対関係

さらに、この規則を守れば、図形がどんなものになろうとも、その規則による意味は保持されることが分かった。


図 3 配置が同じ状態での図形変更例

このことから、図形が意味を表すためには、図形の形状ではなく、図形と図形の相対関係つまり「配置」が重要であることが分かった。

5.連想
静は鑑賞者による線描から理論上無限に認知プリミティブを獲得する。つまり無限の選択肢ができることになるが、そこから意味のある図形を連想するためには、無作為による選択は確実ではない。そのため、似たような形は似たような配置をもっていることに注目し、形状によって判断をさせることにした。その判断に自己組織化マップ[2](Self
Organized Map−SOM)を使用した。SOM はフィンランド・ヘルシンキ工科大学の教授であるコホネンによって提案されたニューラルネットワークの一つで、音声認識や指紋照合などに使われており、あいまいな形でも柔軟に認識することが出来る利点がある。SOM を使うと認知プリミティブは似たような形状同士に分類される。この分類学習を元に、似たような形状が描かれると過去に獲得した認知プリミティブを参照してその認知プリ
ミティブがもつ認知プリミティブ群を合成することにより、意外性のある意味を喚起する線描を追記できるようになった。図6 は2003 年12 月に京都市立芸術大学にて展示を行った際、鑑賞者とのインタラクションによって出来た絵である。鑑賞者は始めに大きい人物の顔の円を描き、そこから静が自律的に描いた。最後にそれぞれの人物の目
と口を鑑賞者が描いて完成した。


図 4 合成.赤い部分がSOM で近いと判断された部分


図 5 合成結果の例


図 6 鑑賞者との共同制作によって出来た絵

6.次回の展望
静の制作と研究はこれで終わらない。今後の静の目標はさまざまなことが考えられる。例えば、着色、構図、立体化などである。いずれにしても、静はようやく、外界からの任意の画像を解析して、蓄えた画像の組み合わせから、意味のあるイメージを自律的に生成するところまで来た。次の課題はこの意味のあるイメージの扱いをどうするかで
あることは間違いない。

[1] Harold Cohen: http://crca.ucsd.edu/ hcohen/, 人工知能画家AARON の製作者
[2] Timo Honkela: “Self-Organizing Maps in Natural Language Processing”, Helsinki University of Technology, Espoo, 1997

[/ja]

Shizuka, the painter version 3








Dctoral thesis works in Media Art at Kyoto City University of Arts
Mito Software develepment enterprise (FY2003) granted
Interaction2004 interactive session accepted





Doctoral thesis of Kyoto City University of Arts
2004
67page(20.54 MB, Japanese)


document video 1
2003.12.05
at Kyoto City University of Arts
2min 59sec(12MB)



document video 2
2004.02.15
at Tokyo International Forum
1min 52sec(10MB)



document video 3
2004.02.15
at Tokyo International Forum
2min 54sec(9.85MB)

1. About Shizuka
Shizuka is a kind of artificial intelligence (A.I.) software which the program draw various images autonomously. This, however, purpose is not to make a great A.I. artist which can draws better than human beings, but to understand how to make visual art by human being deeper.
I know this goal would be long way. At this point(-version 3.0), I tried to realize interactive drawing software, that the program add new images from audience’s drawing, which means “association memory”.

2. Artificial Intelligence Painter
A.I. painter is not my original concept. It has already been realized by Harold Cohen, professor at University of California, San Diego, 30 years ago. His program is named AARON. I was, however, keeping in touch him about this concept then I reached this concept should become a kind of genre by many researchers and artists, because every visual representation way is variety in each person. AARON is made from Cohen’s way to draw. Therefore, AARON can not make images which Cohen ordered. In this point, I felt that it is more natural that a program get images itself from outside world. So, my program is a growing model to represent images which I can also imagine.

3. Cognitive Primitive
Shizuka convert all shapes which audiences drew into special data format named “cognitive primitive”. (Fig 1) Cognitive primitive means a shape which doesn’t represent meaning itself though evocate something to mean to us. Cognitive primitive has not only image data also has link point to other cognitive primitives. Primitives have relationship each other. Therefore, the image constructed with related primitives represent a meaning.


Fig 1: Converting into cognitive primitives

4. Image represents a meaning
We are sharing same images which have a common meaning roughly. A face, for instance, is drawn two eyes, a nose and a mouse in a circle. Thinking about this fact, I converted face images into cognitive primitives (Fig 2). Then, I found there’s a kind of rules in its relationship.


Fig 2: Relationship of faces

Yet, I found its rule kept its meaning even if shape parts had changed. (Fig 3)


Fig 3: Examples changed parts in the same rule.

5. Association
Shizuka, theologically, can get infinitive cognitive primitives from audiences’ drawings. It means there is no limitation to choose. However, to associate a proper shape, randomized choice doesn’t succeed always. Then I used Self-Organized Map (SOM) to determine a similar shape. SOM is one of neural net algorithms proposed by Talvo Kohonen, professor at Helsinki University of Technology. It is mainly used in voice recognition, finger-print matching and so on. SOM can match anything boldly even if the shape is unclear. Yet, SOM classifies similar shapes to a similar group. With SOM, if audience draws something, the program pick most similar one up. And the program can add drawing which evocate surprising meaning finally. (Fig 4, 5)


Fig 4: Mixing (red part determined by SOM)


Fig 5: Examples of mixing

Figure 6 is a picture made from interaction between an audience and Shizuka. At first, audience drew just a circle. After then, Shizuka add drawing autonomously. At last, audience add eyes and mouse to complete it.


Fig 6: Result

6. Next
Research of Shizuka is not finished yet. There are many topics for next step. For instance, they’re coloring, compositing and so on. At least, I will make Shizuka can deal with color next time.

[1] Harold Cohen: http://crca.ucsd.edu/ hcohen/, AARON’s father
[2] Timo Honkela: “Self-Organizing Maps in Natural Language Processing”, Helsinki University of Technology, Espoo, 1997

Kazushi Mukaiyama © 1998-2009 Powered by The XOOPS Project