mextractr

技術系イベントカレンダーとかあんなの自動で生成できるんじゃないの、技術系なんだから当然自動生成しないとだめでしょと思ってただけだけど

Mextractr個人情報フィルタ(プライバシ・フィルタ)
APIが使えるという話を聞きつけて試してみた。

こういうののサンプルをいくつか持ってて
2008-05-01 - 技術日記@kiwanami
でやってみたところ

 <gd:extendedProperty name='what' value="+練習問題"/>
  <gd:extendedProperty name='what' value="oGM披露大会"/>
  <gd:extendedProperty name='what' value="自作GreaseMonkey大会"/>
  <gd:when startTime="2008-05-03" valueString="2008/05/03"/>
  <gd:where valueString="福岡市中央区今泉"/>
  <gd:where valueString="向栄ビル"/>
  <gd:where valueString="福岡市中央区今泉1-13-17">
  <mxtr:postal_address>
  <mxtr:city>福岡市中央区</mxtr:city>
  <mxtr:town>今泉一丁目</mxtr:town>
  <mxtr:address_num>13−17</mxtr:address_num>
  </mxtr:postal_address>
  </gd:where> 

時間帯はとれてないけど場所と日にちは完全にとれる。


Mozilla Party JP 9.0

 <gd:extendedProperty name='what' value="gooラボ-エリア情報検索実験"/>
  <gd:extendedProperty name='what' value="gooラボ-エリア情報検索実験"/>
  <gd:extendedProperty name='what' value="記念パーティー"/>
  <gd:extendedProperty name='what' value="ジャンケン大会"/>
  <gd:who valueString="*東急"/>
  <gd:who valueString="*MozillaJapan技術"/>
  <gd:who valueString="高木浩光"/>
  <gd:who valueString="大岩寛"/>
  <gd:who valueString="渡辺創"/>
  <gd:who valueString="*独立行政法人産業技術総合研究所"/>
  <gd:who valueString="中本崇志"/>
  <gd:who valueString="*株式会社ケイビーエムジェイ"/>
  <gd:who valueString="*Mozillaコミュニティ"/>
  <gd:who valueString="瀧田佐登子"/>
  <gd:who valueString="*ぐるなび">
  <gd:extendedProperty name='ticker' value="2440"/>
  <link rel="related" type="text/html" href="http://profile.yahoo.co.jp/fundamental/2440"/>
  </gd:who>
  <gd:who valueString="*株式会社びぎねっと"/>
  <gd:who valueString="*有限会社"/>
  <gd:who valueString="松澤太郎"/>
  <gd:when startTime="2008-05-31" valueString="2008年5月31日(土)"/>
  <gd:where valueString="大田区"/>
  <gd:where valueString="産業プラザ"/>
  <gd:where valueString="展示ホール"/>
  <gd:where valueString="蒲田駅"/>
  <gd:where valueString="蒲田駅"/>
  <gd:where valueString="東急池上線蒲田駅"/>
  <gd:where valueString="笠谷"/>
  <gd:where valueString="韓国"/>
  <gd:where valueString="蒲田"/>
  <gd:extendedProperty name='how-much' value="4000円">
  <cbc:Amount currencyID='JPY'>
4000</cbc:Amount>
  </gd:extendedProperty>
  <gd:extendedProperty name='how-much' value="3000円">
  <cbc:Amount currencyID='JPY'>
3000</cbc:Amount>
  </gd:extendedProperty>

こういうひとつのページに複数のイベント情報が入っていると難しいようだ。



きりかノート: 第29回 Cocoa勉強会 (7/12)のお知らせ

 <gd:extendedProperty name='what' value="Cocoa勉強会"/>
  <gd:extendedProperty name='what' value="Cocoa勉強会"/>
  <gd:extendedProperty name='what' value="勉強会"/>
  <gd:who valueString="*メールフォーム"/>
  <gd:when startTime="2008-07-12" valueString="7/12"/>
  <gd:when startTime="2008-07-12" valueString="7/12(土)"/>
  <gd:when startTime="2008-07-07" valueString="2008.07.07"/>
  <gd:when startTime="2008-07-02" valueString="2日"/>
  <gd:where valueString="新宿"/>
  <gd:where valueString="西新宿"/> 

やっぱり時間はとれない。



そもそも個人情報フィルタと名前のついてるものをイベント抽出に使ってるので、時間が取れないのは技術的には容易だけど製品仕様でそうなってないだけなきがする。


時間も取れるとイベント抽出用に使えてウェブの文脈では利用の幅がすごく広がるのでご検討を!

蛇足

Mozilla Japan ブログ - Mozilla Japan のイベントスケジュール(2008年7月)
こういうの見て、人間にはすぐわかるけど、でも、これをXMLに落とし込めって言われたらけっこう時間かけて考えないと落とし込めない(だからわかってるわけじゃなくて、ここからここまでを読めばわかる、という気になれるだけだろう)。よく見るとイベント名は同じで1日目と2日目で会場違うのとか混じってる。
人間にとって難しいものをキカイで正しく認識するのも難しいですよね...