国立国語研究所

国立国語研究所、『ひまわり』支援ツール『えだまめ』を公開

国立国語研究所が「言語データベースとソフトウェア」で『ひまわり』支援ツール『えだまめ』を公開した(2006-07-26)。『ひまわり』とは、同研究所が開発し提供している言語研究用の全文検索システムのことで、2004年12月20日に公開され、以降改訂を重ねている。今回公開された『えだまめ』は、この『ひまわり』の利用を容易にするもので、任意のテキストを『ひまわり』用のデータに変換してくれる。なお、利用にはInternet Explorer6以上がインストールされたWindows環境が必要となる。

・『ひまわり』支援ツール『えだまめ』

国立国語研究所、現代雑誌200万字言語調査語彙表公開版(ver.1.0)を公開

国立国語研究所が現代雑誌200万字言語調査語彙表公開版(ver.1.0)を公開した(2006-08-11)。同研究所が進めている「現代日本語における書き言葉の実態解明と雑誌コーパスの構築」のなかで、2001年度~2005年度にかけて実施した「現代雑誌200万字言語調査」の成果。学術研究・教育利用のための公開とされている。

国立国語研究所、ことばに関する新聞記事見出しデータベースにデータを追加(2006-03-31)

国立国語研究所が「ことばに関する新聞記事見出しデータベース」に2003年と2004年のデータを追加した(2006-03-31)。今回のデータ追加によって、1949年から2004年までのデータを検索できるようになっている。

・ことばに関する新聞記事見出しデータベース

http://www.kokken.go.jp/katsudo/kenkyu_jyo/sinbun/

・国立国語研究所

http://www.kokken.go.jp/

国立国語研究所、日本語ブックレット2004を公開(2006-03-31)

国立国語研究所が日本語ブックレット2004を公開した(2006-03-31)。このブックレットは日本語に関する動向と資料をまとめたもので、2005年度から電子版として定期的に刊行されることになった。内容は動向と文献目録の2つに分かれており、2004年中に書籍、雑誌、新聞でどのように日本語が注目されたか、その状況と実際の文献情報がまとめられている。

・日本語ブックレット2004

http://www.kokken.go.jp/katsudo/kanko/nihongo_bt/

・国立国語研究所

http://www.kokken.go.jp/

国立国語研究所、言語コーパス整備計画「KOTONOHA」のページを公開(2006-03-27)

国立国語研究所が言語コーパス整備計画「KOTONOHA」のページを公開した(2006-03-27)。言語コーパス整備計画「KOTONOHA」では、2006年度から5年間をかけて現代日本語の書き言葉コーパスの構築を予定しており、今回書き言葉コーパスの意義と構築計画が発表されている。なお、話し言葉についてはすでに作業が進められており、日本語話し言葉コーパスが構築されつつある。優れたコーパスが完成するよう期待したい。

screenshot

・言語コーパス整備計画「KOTONOHA」

2006-03-03(Fri): 「話し言葉」から「書き言葉」へ ?日本語コーパスの構築に向けて

朝日新聞(asahi.com)に「「書き言葉」1億語集約へ 辞書編集などへ応用期待」という記事。国立国語研究所は、記事にある太陽コーパス(雑誌『太陽』日本語データベース)以外にも、すでに日本語話し言葉コーパスを完成させているが、次は「書き言葉」のコーパスが必要ということなのだろう。記事では新聞や雑誌、書籍を素材にして試験的につくられた書き言葉コーパスの可能性についてふれているが、これらの素材はプロの書き手による極めて高度な書き言葉のコーパスにとどまっている。実際に用いられている日本語にまで範囲を広げる必要があるだろう。たとえば、インターネットのサイトやメール、掲示板に記された日本語は、これ以上ない書き言葉の実データだ。これらをコーパスとして取り込んでいくと、世界的にも例をみない「書き言葉」コーパスが完成するはずだ。これであれば、記事にある2つの課題のうち、1点目の「日本語の実態をバランスよく反映しているか」は達成されることだろう。だが、課題の2点目として挙げられている「公開して誰にでも利用できるか」は、やや難易度が高い。ウェブアーカイブの構築や大手ポータルサイトの協力が鍵となる。しかし、課題が大きいほどに、このコーパスの可能性は大きい。国立国語研究所の取り組みを応援したい。

国立国語研究所、語種辞書『かたりぐさ』を公開

国立国語研究所が「言語データベースとソフトウェア」で語種辞書『かたりぐさ』を公開した(2005-09-06)。文章の形態素解析結果を和語、漢語、外来語、混種語の4種類に分類できる。

・語種辞書『かたりぐさ』

http://www.kokken.go.jp/lrc/index.php?%B8%EC%BC%EF%BC%AD%BD%F1%A1%D8%A4%AB%A4%BF%A4%EA%A4%B0%A4%B5%A1%D9

・言語データベースとソフトウェア

http://www.kokken.go.jp/lrc/

・独立行政法人国立国語研究所

国立国語研究所、『表記統合辞書』を公開

国立国語研究所が「言語データベースとソフトウェア」で『表記統合辞書』を公開した(2005-07-11)。表記が異なるが、同じ意味の言葉(例:編みもの、編み物、編物)を同一の言葉として判定するために利用できる。

・『表記統合辞書』

http://www.kokken.go.jp/lrc/index.php?%A1%D8%C9%BD%B5%AD%C5%FD%B9%E7%BC%AD%BD%F1%A1%D9

・言語データベースとソフトウェア

http://www.kokken.go.jp/lrc/

・独立行政法人国立国語研究所

http://www.kokken.go.jp/

国立国語研究所、『たんぽぽ』と『プリズム』を公開

国立国語研究所が「言語データベースとソフトウェア」で『たんぽぽ』と『プリズム』を公開した(2005-07-08)。いずれもWindows環境でXML文書を利用するためのツールである。

・『たんぽぽ』と『プリズム』

http://www.kokken.go.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9

・言語データベースとソフトウェア

http://www.kokken.go.jp/lrc/

・独立行政法人国立国語研究所

国立国語研究所、全国方言談話データベース「日本のふるさとことば集成」に情報追加

独立行政法人国立国語研究所が全国方言談話データベース「日本のふるさとことば集成」に『第9巻 岐阜・愛知・三重』、『第10巻 富山・石川」・福井』のサンプル情報を追加した(2005-11-17)。各地の方言の音声ファイルを試聴できる。

・全国方言談話データベース「日本のふるさとことば集成」

http://www.kokken.go.jp/public/hogendanwa_db/

・独立行政法人国立国語研究所

http://www.kokken.go.jp/

コンテンツ配信