国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションにデータを追加(2010-03-08)

screenshot

国立国語研究所がKOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションにデータを追加した(2010-03-08)。

・KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーション

http://www.kotonoha.gr.jp/demo/

・国立国語研究所

http://www.kokken.go.jp/

・言語コーパス整備計画KOTONOHA

http://www2.kokken.go.jp/kotonoha/

・特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21 世紀の日本語研究の基盤整備」(「日本語コーパス」)

http://www.tokuteicorpus.jp/

今回追加されたのは、

  • 2005年度版の検定教科書から無作為抽出したサンプル(412件、約100万語)
  • 「Yahoo!ブログ」より無作為抽出したサンプル(24027件、約500万語)

で、すでにコーパスに含まれていた

  • 一般の書籍から無作為抽出したサンプル(8821件、約2500万語)
  • 政府刊行白書から無作為抽出したサンプル(1500件、約500万語)
  • 過去30年間の国会会議録から無作為抽出したサンプル(159会議、約500万語)、
  • 「Yahoo!知恵袋」から無作為抽出したサンプル(45725件、約500万語)

とあわせて6種類のデータで合計4600万語となっている。

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションを公開(2007-05-28)(新着・新発見リソース、 2007-06-27)

http://d.hatena.ne.jp/arg/20070627/1182877097

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションを拡張(2008-03-14)」(新着・新発見リソース、2008-03-23)

http://d.hatena.ne.jp/arg/20080323/1206284374

・「国立国語研究所、KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモンストレーションにデータと機能を追加(2009-03-09)」(新着・新発見リソース、2009-04-08)

http://d.hatena.ne.jp/arg/20090408/1239144326