2007/03/16

[雑記]   コーパスをもつかもたないか

at 04:02JST
特徴語抽出だが、いろいろ試したもののなかなか奥が深いね、やっぱ。

精度的にはやはりコーパスをもたせてやったほうが期待できるのだが、いま使っているヒューリスティクス方式(単なる経験則)でもそこそこの成績なので、とりあえずこのままで行くことにした。

単純にMeCabで形態素解析した結果にコーパスからスコアリングすると長い語が抽出できないのが不満だし、かといって我流で熟語の連結アルゴリズムを作ると誤差が出やすかったりして痛し痒しだし。

「純粋に統計的手法によったほうが、総合成績がよくなる」
というのはわかった。おれがガッコでやってたことはなんだったんだろねえ…。まあ、当時から言語学の方向性には異論ありありだったんだけどさ。

あと、解析状況を反映して学習していくとかいうのは、コスト対効果が著しく低いというのもなんとなくわかった。それならネットで大量にクローリングして、定時にバッチで辞書を更新させたほうが絶対いい。検証してないけど。

なんかこう、ぼくのやりかたは学問的でもないし技術者的でもないね。だめやね。

[雑記]   志賀原発の事故は東海村の4ヶ月前だったのか

at 01:56JST
調べてて気付いた。

今や、ろくに覚えていない人も多いだろう、99年10月の東海村で起きた
「ウラン溶液をバケツにどくどく注いでかきまぜてたら、臨界が起きちゃいました」
事故。当時の思い出というと、2ちゃんねらが「建物の屋根が吹き飛んでいる」というデマで踊って、はやくも群盲コミュニティの本性をあらわにしてたことだが…。

北陸電力が隠してた志賀の
「原発停めて点検してたらなんか制御棒がすっぽ抜けて臨界になって、おまけに停止装置も作動しませんでした」
事故は、実はその4ヶ月前に起きていたのだ。

東海村の事故をテレビで見ていて、志賀の関係者はなにを思っていたのだろう。「たいしたことのないレベル」では決してない事故だった。バレたらやばいと、ヒザがガクガクふるえてたんだろうな。

当時きちんと報告がなされていたら…二重奏で原発政策に大打撃になった? そういう考えもあるだろうが、それでマスコミや野党がいっせいに叩いていたら、もしかしたら現場での不備確認が徹底して、東海村の事故は起こらなかった可能性が高いんじゃないかと思う(実際にはあの事故は業界の構造的ゆがみがもたらしたものだが確率は下がったろう)。

ネトウヨがよく「マスコミが叩きすぎる」などと言うが、それはあまりに浅はかだ。やはり多くの力が錯綜し、監視しあってはじめて社会というシステムは回り続ける。自分たちの抱える問題点や危険性をパラノイア的に検証し続けなければ、この巨大な生態系は壊死しかねない。生物器官が情報伝達に神経やホルモンなど、過剰な多様性を備えているのと同じだ。

東海村で死んだ作業員の最後は悲惨だった。NHKのドキュメンタリーで放映されたのだが、彼は病床の数カ月で医師らとともに地獄を体験した。周辺住民らへの被害もそうだが、原子力の安全神話を守ろうという動きが防げたかもしれない人災を引き起こした。

こうした危険性は、他のエネルギー源にはない。火力発電所が爆発しても、せいぜい火事が起こるだけだ。水力? 風力? いずれも長期的にみた場合のリスクは原子力よりはるかに低い。二酸化炭素排出による環境負荷の低減など、万年単位で隔離する必要のある放射性廃棄物の危険性とは比較にならない。維持・管理の作業をするだけで、大量の低レベル放射性廃棄物がたまり続ける。毎日、コントロールできない爆弾を生産しているようなものだ。

感情論どころか、理性的に考えてもおはなしにならないのが原子力産業だと思うが。一度まわりはじめた歯車は、壊れるまで止まらない。

[雑記]   gooのWebOSは独自プロダクト?

at 01:00JST
gooラボで仮想デスクトップ「ウェブデスクトップ」が開始 - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20345287,00.htm

gooラボ ウェブデスクトップ実験
https://desktop.labs.goo.ne.jp:80/

これね(なんで80番ポートが指定されているのかはナゾ)。

ブラウザ内にOSというか、デスクトップメタファーを実現するプロダクトというのは今までもいくつかあったので、
「どうせそれのローカライズ版でしょ?」
と思ったんだけど、そうでもないみたいだ。

たとえば、

スタートフォース〜どこでも使えるブロードバンドデスクトップ
http://www.startforce.jp/

こんなのがあるんだけど、以前試用したときと操作感が違う。どっちがいい、ってほどではないのだが、こう中途半端にいじる必要もなかろうし、もしかしたらgooラボ独自開発なのかもね。

で、実際にさわってみた感想なんだけどさ、

20070316mage2.png


悪くない。作り込みの足りないJavaScriptアプリケーションにありがちな不安定さは感じず、比較的ロバストにできあがっていると思う。そうそうムリな描画もしていないので、1GHz以上のCPUを搭載したWindowsマシンならふつうに使えるだろう。

…が、しかしこれで何をやるのかというと「?」がつくな。

上の画面を見てもわかるんだが、メールをダブルクリックして開く(これはいいデザインとはいえない。ダブルクリックできない人が多いのに、わざわざWebOSでまでダブルクリックを再現する必要はなかったと思う)んだけど…内部ウィンドウでgooメールのブラウザアクセス画面が出るだけなんだわ。

…わざわざこの環境を使わなくても、直接gooメールにアクセスすりゃいいじゃん。

gooのストレージサービスなどに統合アクセスできるようにするための画面としてはいいね! ポータルの新しい方向性かも!─※

…と一瞬思ったが、それって単にgooの従来ポータルトップページのデザインが悪くて、メールやストレージに一元アクセスしやすくできていないってだけじゃね?

まあ、※の路線というのはアリだと思うので、もうちょっと多機能化したらおもしろいとは思うけどね。多機能化すると使い方がわかりにくくなるという両刃の剣。

それと、気がついたもっともダメな点。

このデスクトップウィンドウのonunloadイベントをlistenしていない(せいだよね?)ので、なんかの表紙にウィンドウを閉じてしまうと
「ああっ!」
となってしまう。ふつうはダイアログを出して確認すると思う。試してないけどIEの「ショートカットをブラウザを再利用して開く」を指定している人はもっと悲惨なことになるのではなかろか。

まあ、再ログインすると最後の状態が復元されるというのがウリなんだけど。ぼくがやってみたときはメールウィンドウのサイズ・配置が記憶されてなかった。

いろいろ悪口を書いたが、もし独自開発ならかなりイイ線行ってるスジを感じたのでがんばってほしい。

gooラボ スタッフブログ ウェブデスクトップ実験の開始について
http://blog.goo.ne.jp/labstaff/e/331dc5499ce4ca57dc818ce1c7f4b1d8

2007/03/15

[雑記]   コーパス関連の情報

at 21:50JST
ざらっと「すぐ使えるものがないか」調べてみたのだが、


・北九州市立大学日本語会話データベース
 http://www.env.kitakyu-u.ac.jp/corpus/
・国立国語研究所日本語話し言葉コーパス(有料)
 http://www.kokken.go.jp/katsudo/kenkyu_jyo/corpus/

てな感じで、あと未公開でさっきの

・国立国語研究所日本語書き言葉コーパス
 http://www.tokuteicorpus.jp/

で、これも有料になるのだろう。

どっちにしても用途にあわない。自作するしかないんだ…。

[を] Googleが大規模日本語データを公開するという話
http://chalow.net/2007-03-13-1.html

これも気になるが。

[雑記]   3/17, 18おでかけ

at 21:13JST
ちょっと日本語コーパスのリソースを探していたら、

日本語コーパス -平成18年度公開ワークショップ プログラム
http://www.ilcc.com/corpus/program.html

が見つかった。まだ空きがあるようなので行ってこよう。

…すごく忘れそうな気がするけど。

[雑記]   グルメの拳

at 19:57JST
いきなりデカい音が鳴るので、深夜に最大音量で見ること。

グルメの拳 ホットペッパー.jp
http://www.hotpepper.jp/doc/ken/

ネタ数が多すぎ。

[技術系]   こんどは広告をつけた

at 16:09JST
つーことで、関連エントリ検索にコンテキストマッチ広告もどきをつけた。

ToDo:
・[BUG] なぜかときどき広告にパスされるキーワードがundefinedになる
・特殊/amazon/楽天の自動切り替え機能を追加
・表示幅を現在のものを最小にして、長くカスタマイズできるようにもする

ここまでいちおう一週間か。のんびり。

[雑記]   ひとつおとなになった

at 13:42JST
いやー、驚愕の事実。

インスタントコーヒーって、腐るのね。
生まれてはじめて知った。

詳細は描写しない。

2007/03/14

[雑記]   オクラらは

at 22:51JST
(cache) Yahoo!ニュース - 毎日新聞 - 食中毒:チョウセンアサガオ誤って食べ 遠賀郡内の家族3人 /福岡
http://megalodon.jp/?url=http://headlines.yahoo.co.jp/hl%3fa%3d20070314-00000168-mailo-l40&date=20070314224609
チョウセンアサガオの実を、オクラと間違えてかき揚げにして食べ、約2時間後に症状を訴えた


ぼくはオクラがだいっきらいなので、
「それみたことか!」
と思ったんだけど、

有毒植物(東京都福祉保健局健康安全室)チョウセンアサガオ類
http://www.fukushihoken.metro.tokyo.jp/shokuhin//////////dokusou/01.html

似ても似つかないじゃないか、これ。

ししとうの天ぷらを飽きるほど食べたいな。

[木鐸]   きっとみんなホームレスが憎いのだ

at 20:39JST
たまたま、リファラーから

waxcafeの日記 - 0円生活の方法
http://d.hatena.ne.jp/waxcafe/20070219

を見かけて「そういえばそんな記事があったな」と思い出した。0円で自由に暮らす隅田川沿い在住ホームレスの話。

そういう人は誰にも迷惑をかけていないし、立派に生きているわけで。しかし、大阪の(そして過去の新宿やこれから東京オリンピックに向けての)ホームレス追放でわかるように、なぜか嫌悪され、追い出される。存在自体が迷惑だと見なされる。

生き物として存在しているからには自由に生きる権利があるはずなのだが。それでもなぜか“ふつうの人々”から嫌悪されるのは、きっと彼らにとってホームレスは憎々しい存在だからなんじゃなかろうか。

彼らは貧しいし、健康面でも不安にさいなまれているリスクがあるわけだが、“ふつうの人々”には持ち得ないものをもっている。それは「自由に存在できる」ということだ。

ぼくらにとって、今や社会メカニズムから切り離されて存在することは容易ではない。その機構の中で、さまざまなルールや暗黙の了解に押しつぶされそうになりながら生きていかねばならない。

野良犬が街中を自由に闊歩できるように、本当なら生き物というのは
「存在する」
ことは自由なはずなのだが、いちど社会メカニズムの中に組み込まれた人間にとっては存在を維持し続けること自体に多大なパワーを費やさねばならない。毎日会社に通い、近所とつきあい、制度のイデオロギーに従い…。その中でなんとか経済的な地位をキープして不安におびえながら暮らしている。少しでもその努力を怠れば存在すること自体が不可能になる、と思われている(そしてほぼ正しい)。

実際には、世界のどこでもここ2〜300年で近代化が進むまでは、この
「存在の自由」
は当然のものだった。苛烈な封建時代であっても、江戸期日本の農民がたびたび逃散したように、いざとなればすべてを捨てて「存在するため」だけに逃げ出すことが可能だった。

引き合いに出すと色眼鏡で見られそうだが、マルクスがその思想の初期に題材としたのが、ヨーロッパの貧民の生活の変遷だった。彼らは燃料を買う金はなく、代わりに近隣の山から薪を切り出してはそれを糧に暮らしていた。しかし、近代資本主義の進展に伴い、あらゆるものの所有が明確化されるにつれ、そのような「自由」は「勝手」と見なされ、犯罪に区分されるようになった。経済メカニズムから切り離される自由をもっていた貧民が、どんどん取り込まれて自由を失っていったのが資本主義の進歩の実態だ(マルクスの言う共産主義というのは、その自由を取り戻そうというラジカルな考え方だったわけだ)。

今はもはや、ほとんどの人はそんな
「自由な時代」
があったことなど想像もできない。つい2,3世紀前のことなのに。

だからこそ、自由に生きているホームレスたちを(どんなに彼らがリスクを背負っていたとしても)潜在意識下で羨望のまなざしで見つめ、そして憎む。

人は、自分がもたないものをもつ者を憎む。

なにも持っていないホームレスが憎まれる理由がそれなら、皮肉としか言いようがない。

[雑記]   自宅で活版印刷

at 20:21JST
アダナ・プレス倶楽部:キットのご紹介 活版印刷機械・周辺機材
http://www.robundo.com/adana/kit/kit.html

むほー。一台欲しい〜…と言ってもなんに使うんだよ、おい。単なるインテリアになること間違いなし。

つーか、ぼくが思うに「活版印刷独特の押圧がかかったようなレタッチをするソフト」があったら、別に要らんような。

[技術系]   「関連エントリ自動表示パーツ」できた

at 15:21JST
やった、やった。
過去記事を自動検索して表示するようにできたぞ。

キーワードレベルでは精度がイマイチだと思ってたけど、こうして見るとそれなりにそれっぽい表示になってるような気もする。

あとは広告欄追加だな。

[技術系]   BulkfeedsのAPI

at 12:47JST
今さらながらというか、一年ぶりくらいにチェックしてみたんだけど、BulkfeedsのSimilarity Searchとかって基本的に動作してないよね。なんでやろ。

Bulkfeeds: Developer's API - RSS Directory & Search
http://bulkfeeds.net/app/developer.html

やっぱ負荷が高そうだから、誰も突っ込まないのかね。

[雑記]   おさかなたべたいな

at 00:12JST
ひとりぐらししているとさかなは食べられない。

高いし腐るし、料理もめんどうだ。グリルを使って焼いたりするとあとしまつがたいへん。まあ、ぼくはシャケをラップで包んでレンジにかけるパターンで手を抜いてるけど、それでも元手がかかるのはどうしようもない。

久しぶりに、昨日は近所の寿司屋で青いのを食べてきた。ここは値段のわりにおいしいし、回転なのに注文制で気に入ってるんだけど。なんか
「バイト募集」
の貼り紙が出てた。問題はその下に
「外国人不可」
と書いてあったこと。

…一瞬で通う気が失せた。まあ、就労条件とかいろいろあんだろけどさ。気分悪くなった。ちなみにホール係の女性は外国人だった…意味わからん。

しかたなく、今度はコンビニでししゃものパックを買いだめしてきた。もう焼いてあるので、レンジで軽くあっためるだけでいい。にせもののししゃもでもうまい。代替資源を見つけてきた水産庁に感謝。

でもものたりない。

2007/03/13

[技術系]   blog検索API

at 21:52JST
んー…。

いろんなところがblog検索のWeb APIを提供しているわけだが。いざそれを使おうと思って調べてみると、なかなかいいのがないなあ…。

ほうぼうでまとめられてはいるんだろうけれど、ざっと見ると、たとえば、

・Technorati JAPANのAPI

がまずあるわねえ。

テクノラティ:ディベロッパープログラム登録
http://www.technorati.jp/developers/signup.html

から、ディベロッパープログラムに登録。

テクノラティ: APIキー
http://www.technorati.jp/developers/apikey.html

で、APIキーを取得すれば使えるんだけど、

テクノラティ利用規約
http://www.technorati.jp/about/tos.html
このAPIキーはテクノラティAPIを個人で、かつ非営利目的のために使う場合のみ利用できます


なので広告と組み合わせるような事例ではダメだろう(別にAdSenseを掲載しているサイトじゃダメ、とかいう話ではなくて、いまぼくが作ってるものについてね)。

Technorati JAPANは、改めてチェックしてみるとずいぶんヒット率がよくなっているので惜しいなあ。

・BLOGRANGER 2.0 - goo ラボ

のほうは、

BLOGRANGER 2.0 - goo ラボ
http://ranger.labs.goo.ne.jp/webapi/webapi.php
利用者は、利用者の個人的かつ非営利の目的の範囲内で、利用者が運営または利用する任意のウェブサイト(以下「利用者サイト」といいます)内に検索エンジン(以下「検索エンジン」といいます)を生成する目的で


なので、やっぱり非営利限定。まあ、そもそもここは返却データがJSONなのでperlで使うにはどうよ? という気もするんだけど。

そうすると、あとは、

・Yahoo!

に戻ってくるしかないわけで。

Yahoo!デベロッパーネットワーク - Yahoo!検索 - ウェブ検索
http://developer.yahoo.co.jp/search/web/V1/webSearch.html

をblog検索に転用するというのも可能だからね。でも、
http://developer.yahoo.co.jp/faq/#tos
を見ると、商用目的での利用は制限していないんだけど、blog検索に使った場合、エントリ作成日時が返されないのでやや不便。

ただ、Yahoo! にはもうひとつ「API」があって、

Yahoo!ブログ検索 - 検索オプション
http://blog-search.yahoo.co.jp/option

のRSS出力を取得すればいいんだよね。

たださあ、

[を] Yahoo!ブログ検索のRSSをブログ検索APIとして使う
http://chalow.net/2006-10-04-1.html

と、「Yahoo!の中の人」も言っているんだけど、別に規約として
「OKよ!」
と言ってるわけじゃないから、そこがちょっと…。うーん。

まあ、別に一日1,000以上もリクエスト飛ばすようなことはないだろうからいっか。Webデベロッパー規約に沿った範囲で使えば。

RESTっぽく使うには、たとえばここのblogを(amazon mx)(←OR表現)で検索する場合、

http://blog-search.yahoo.co.jp/search?p=%28amazon+mx%29+site%3Ahttp%3A%2F%2Fmemo.hirosiki.jp%2F+datef%3A--------+datet%3A--------&yuragi=on&so=dd



http://blog-search.yahoo.co.jp/rss?p=%28amazon+mx%29+site%3Ahttp%3A%2F%2Fmemo.hirosiki.jp%2F

とすればRSSで返ってくる。たぶん、

http://blog-search.yahoo.co.jp/rss?yuragi=on&p=%28amazon+mx%29+site%3Ahttp%3A%2F%2Fmemo.hirosiki.jp%2F

で、ゆらぎにも対応するのだろう。

[雑記]   Yahoo!

at 19:19JST
なんで2年経ってもカテゴリー登録されないのに、Yahoo!ニュースでは紹介するんだっつーの>Yahoo!

(今よりずっとPVの少ないサイトは2,3ヶ月で登録されたのにねえ)

2007/03/12

[雑記]   たまにはおちこむか

at 22:25JST
脳裏にときおり浮かぶともしびをたよりにがんばってはみるものの、やはり長くは続かず、自分の能力のなさや醜さに幻滅して嘆息する。それでも、生きていかねばならない。死ぬのはいや。

はあ、がっくり。

何か自分の外に守り育てるものがほしい、それを糧に生きることほど楽な生き方はないから、そうは思えど自分にはそんな道を歩き幸せを享受する資格はないのだと己に呪詛をかける。

寝るか。

[技術系]   Interixメモ

at 22:05JST
旧Services for UNIX。

ちょっと、あとでインストールしよう(Cygwinにイラつきはじめた)。

@IT:製品レビュー:Microsoft Windows Services for UNIX 3.0 日本語版
http://www.atmarkit.co.jp/fwin2k/productreview/sfu30/sfu30_04.html
Interix memo.
http://air.s.kanazawa-u.ac.jp/~ohara/interix.html
【特集】マイクロソフトSFU vs Cygwin
http://journal.mycom.co.jp/special/2004/sfu/001.html

[技術系]   Scalix日本語版リリース

at 20:51JST
AjaxベースのWebメール「Scalix」日本語版が発売 − @IT
http://www.atmarkit.co.jp/news/200703/12/scalix.html

これ、ITmediaオルタナティブblogにポートしてる人が記事書いてたから注目してたんだよね。んで、
・無料で利用できる
・Fedoraなどにバイナリが、そのほかソースも公開
されているコミュニティ版をちょいとダウンロードしてみた。

Scalix Japan
http://www.scalix.co.jp/

で、ざっと眺めてみたんだが…。

当然というか、日本語化されている短いインストールガイドはバイナリパッケージ導入が前提。ぼくは
「なんでもソースからインストールだぜ!」派
なので、tarボールを開いてみた。…うにゃー。

バックエンドはPostgreSQLで、(たぶんメールの認証関係で)cyrusのヘンな(ヘンじゃないけど)デーモンとか使うのね。IMAPが絡んでなきゃいいんだけど…。あと、インストーラ部分のソースを見たら拡張子pyのファイルが…。そのほかうじゃうじゃと。

なんか依存するものが多すぎて、一瞬でmakeする気が失せた。

えーと、まともな人にはたぶんおすすめなプロダクトだと思います。インストーラはXにも対応しててグラフィカルだし。やっぱExchange互換ってのは魅力的だよ。

でもなー、makeしてインストールする人にはねー…。昔のサイボウズみたいにバックエンドもオリジナルのDBで、とか根性入れて作ってくれるとうれしいんだけどな。あー、そしたらソース公開しないか。

まあ、感じたことがごちゃごちゃしててまとまらんのだが、
「依存するプロダクトが多くて、しかもコミュニティベースで、
 顧客側じゃおっかけきれないからサポート買うことになって、
 それがけっこうイイお値段だったら、
 ホントのExchange導入したほうがよくね?」
という不安がほんわかと…。

オープンソースベースでビジネスするなら、ASP的な展開でやったほうがわかりやすいんじゃないだろうか。ローカル側のシステムみたいに面倒なところは、MSにまかせればいいじゃん。

[技術系]   そんなWeb標準は要らない

at 17:49JST
いつのまにかgooブログトップページのコーディングスタイルが変わっているようだ。

goo ブログ
http://blog.goo.ne.jp/

で、XGA環境でIE7を最大化して表示したときはこう見える。

200703120mage1.png


が、ウィンドウ幅がXGAより小さいとこうなる。赤枠内。

20070312mage2.png


別に一カ所だけではなく、全般的にこう。たとえば、

20070312mage3.png


は、

20070312mage4.png


こう。

なにがどうなっているのかまではいちいち書かないが、実にバカげている。Webというのは
「ごくふつうの人」
が閲覧するものだ。そういう人たちは、こういうものを見れば当然混乱するし、自分が悪いのかとさえ思って怖がる。

人を怖がらせることがWeb標準だというのなら、そんな標準は要らないと思う。

インターネットの基礎を作ってきたもののひとつにRFCによるコンセンサスがあるが、アレはより多くの人が幸せになれるようにゆるい取り決めを
「コメント求む(Request For Comments)」
として公開したものであって、居丈高な権威を作り出すためのものではなかった。W3Cは、多くの局面でそれとは異なる精神の発露を見せつけてきた気がする。個人的な意見だが。

gooが悪いとは思わない。しかし、こんなコーディングをして自己満足に浸っている“自称デザイナー”や“自称コーダ”は、即刻腹を切るべきだ。

ゆるいデファクトスタンダードこそがひとを幸せにする。

追記:
スタッフblogを見たら9日にリニューアルだったらしい。

gooブログ スタッフブログ ブログトップページのリニューアル
http://blog.goo.ne.jp/staffblog/e/72c1b3eb702bece42dd973848fefa825
さらに過去の記事
2009/04 (1)   2008/12 (3)   2008/11 (9)   2008/10 (10)   2008/09 (20)   2008/08 (2)   2008/07 (23)   2008/06 (16)   2008/05 (22)   2008/04 (11)   2008/03 (21)   2008/02 (20)   2008/01 (21)   2007/12 (32)   2007/11 (37)   2007/10 (46)   2007/09 (63)   2007/08 (33)   2007/07 (41)   2007/06 (81)   2007/05 (173)   2007/04 (168)   2007/03 (113)   2007/02 (123)   2007/01 (92)   2006/12 (111)   2006/11 (185)   2006/10 (20)  

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。