it-swarm-ja.com

単語リストソース

いくつかの言語の名詞、副詞、形容詞、動詞のソースを探しています。

リストをalreadyに分割し、 [〜#〜] oed [〜#]を通過する必要がないようにしたい〜] (および英語以外の同等物)上記のリストを手動で再作成します。

定義はあまり気にしません。一部の単語は複数の品詞になる可能性があることを理解しています。これで問題ありません。「many」などの単語は名詞または形容詞であり、両方のリストに表示される可能性があります。

ここの誰かがそのような情報源を知っていますか?そうでない場合、誰かが私を正しい方向に向けることができるでしょうか?

私は次のいずれかの形式で大丈夫です(または人々がアイデアを持っている場合は同様です):

  • csv:<Word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • 「名詞」、「動詞」などの平文ファイル
  • mysqlテーブル
11
warren

私はいくつかのプロジェクトにプリンストン大学の WordNet を使用しました。これは英語の語彙データベースです。 Global WordNet は、すべての言語で同じことを行おうとするプロジェクトの拡張です。

http://wordnet.princeton.edu/wordnet/related-projects/ で関連プロジェクトに興味があるかもしれません

8
teknikqa

これはまったく役に立たないかもしれません、私は知りません。しかし、MediaWikiには特定のカテゴリーに属するすべてのページをリストするための api があります。 Wiktionary.orgで使ってみることができます。

ノート:

  • 各クエリは500件の結果のみを返します。ただし、最後に、次の500件の結果を取得するために別のクエリで使用するパラメーターも指定します。
  • これには、指定されたカテゴリのすべてが含まれ、他のサブカテゴリも含まれます。
  • 結果はアルファベット順になっているようですが、大文字で始まるものはすべて小文字の前にあります。

例:

これがお役に立てば幸いです、それは私が思いつくことができるものです。

4
Matt Blaine

@teknikqaによるwordnetの提案を2番目にしますが、APIを確認することをお勧めします。

[〜#〜] storytime [〜#〜]:言語分析の部分があるAIコースがありました。私はwordnetのPerlAPIを使用して、上位3つの定義タイプを自動的に検索し、フレージングをほぼリアルタイムで分類しましたEND OF STORYTIME

たくさんの言語 のためのAPIがあります

参考:プロジェクトはA +を取得しました

1
Andrew Bolster