netail.net
自作フリーソフトや,ゲームに関する雑記を公開してます.
日記はソフトウェア工学の論文ネタが中心です.
最近のお知らせ (古いものはこちら)
2008-04-21 [長年日記] ▲
_ [論文] データの来歴を分析する ▲
久しぶりに研究関連の話題です.正確には論文じゃなくて CACM の記事ですが.
Luc Moreau et al.: The Provenance of Electronic Data. CACM, Vol.51, No.4, pp.52-58, April 2008. [ACM DL]
Provenance というのは,芸術作品や考古学などで登場する 品物の由来,来歴の意味で, たとえば絵画では,誰がいつ描いて,途中で誰が修復したか, といった情報らしいです. 電子データでも,そのデータがどうやって作られたか(誰が書いたか,どんな元データを使って作ったか,など),誰が所有していたか,などのデータを残すことで,そのデータを安心して使えるだろう,というのが記事の趣旨になります.
来歴データは,SOA システム上で記録するとしたら, サービスの状態,使用しているアルゴリズムなどへの言及や, メッセージの処理順序や時刻,関連についての情報などだと考えられます. そして,たとえばあるメッセージが,別のメッセージへの返信である, 別のメッセージのデータを元に計算されたデータである(M2 = f1(M1))といった 関係を, "is-caused-by","is-response-to" という原因を意味する辺や "is-based-on", "is-justified-by" というデータ依存辺によって, 循環なし有向グラフで表現することができる,と述べています.
データの来歴の使い方については, 記事では病院での医療情報や,科学系の大規模シミュレーションの パラメータや計算プロセスなどの来歴を題材にしています. メーラでよくある「転送済み」「返信済み」みたいなフラグも, 派生データの存在を示すという意味で,来歴の一種かもしれません.
ソフトウェア工学だと,ソフトウェア・タグに話としては似ているし, もっと粒度の小さい履歴を記録しようという人たち (開発者の統合開発環境での振舞いを記録するアプローチとか) にとっても参考になる記事なのではないかと思います. また,「このデータはこういう方法で計算されたよ」という計算 過程を示すという意味では, JAIST の方々の法令工学でやりたいことの1つにも 関連してるかもしれません.