2007/03/17

[雑記]   日本語コーパス平成18年度公開ワークショップ

at 17:09JST
 
日本語コーパス -平成18年度公開ワークショップ プログラム
http://memo.hirosiki.jp/article/36051459.html

行ってきた。

予稿集もらって、オープニングスピーチを聞き流しながらその場で読んで帰ってきた。長らくこの方面から離れていた人間としては、この予稿集はとても示唆にとんだ内容で参考になった。これでタダっつーのは、国家予算ばんざいだと思った。

でも、残りの招待講演とかデモンストレーションとかは意味がなさそうなのでパッと帰ってきたのだ。また明日も行く予定だが、予稿集読んだ範囲じゃ、「Yahoo!知恵袋」の話もそんなにおもしろくなさそうだしアレかも…。

で、問題のこの
「日本語書き言葉コーパス」
の成果だが、有償DVD-ROM配布オンリーかと思ったら、
・Webによる無償供与(制限あり)
・Webによる有償供与
・メディアによる有償供与
の3タイプを予定しているらしい。Webって…まあ、内容から言って
「形態素分析しますよ」とか
「特徴語抽出しますよ」とか
のAPI提供なんてカジュアルなもんじゃないだろうが。どんなものを予定してるのかね。

予稿のなかで出てくるUniDicというのも成果物のひとつになるのだろうが…そこで「そういえばIPADICって結局どういうかたちで配布されてんだ?」というのを今さらながら疑問に思った。あとで調べてみよう。
※追記:
「IPA品詞体系辞書」か。とりあえずChaSenについてたやつを解凍すると、Lispのリスト表現っぽいかたちでまとめた品詞辞書ね。KOTONOHAのほうの成果物はXML形式になるらしいが。んで、
% wc -l *.dic
すると24万語なのね。今ごろはじめて中身を見た…。

あと、「確率的単語分割ツール」とかなんとかいうツールを作っているという人もいるらしくて、Sourceforgeのアドレスが掲載されていたが、今は空っぽのままだ。
http://barpp.sourceforge.jp/
内部的にChaSen/MeCabを使っているというようなことなのでどこらへんが確率的なのかわからんが、おもしろいのかな?

全般に「茶筅、茶筅」って感じの研究で、NAIST一色って気がした。やっぱ合格したとき行けばよかったかな…。絶対肌に合わないと思うけど。
関連しそうな過去記事:
さらに過去の記事
2009/04 (1)   2008/12 (3)   2008/11 (9)   2008/10 (10)   2008/09 (20)   2008/08 (2)   2008/07 (23)   2008/06 (16)   2008/05 (22)   2008/04 (11)   2008/03 (21)   2008/02 (20)   2008/01 (21)   2007/12 (32)   2007/11 (37)   2007/10 (46)   2007/09 (63)   2007/08 (33)   2007/07 (41)   2007/06 (81)   2007/05 (173)   2007/04 (168)   2007/03 (113)   2007/02 (123)   2007/01 (92)   2006/12 (111)   2006/11 (185)   2006/10 (20)  
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。