モジュール
テキスト分析と自然言語処理でインサイトを取り出し、データを一定の条件の下で優先順位付けし、多言語検索を行います。
当社のテキスト分析プラットフォームは、構造化されていないテキストを正確かつ包括的に言語分析し、より多くの情報に基づき意思決定を実施できるようにします。
Foundational NLP
高品質の多言語テキスト分析と自然言語処理により、構造化されていないテキストを整え、検索や高度な分析ができるように準備します。
主な機能は次のとおりです。
- 各言語の統計的プロファイルと、単語と書記体系を検出するアルゴリズムを使用することによる正確な言語識別
- 正確な言語処理とテキストの構造を理解することで、単語と単語の境界を正しく識別するトークン化
- 単語を構成部分に分解して文法構造、形式、語形変化を理解するための形態素解析
- 文脈や単語の意味を理解して、単語ベース(レンマ、単語の基本形)から意味的に関連する単語を明らかにすることにより、テキストデータの複雑さを軽減するレンマタイゼーション
- 単語の構文上の役割と文法カテゴリ(名詞、動詞、形容詞など)を示す品詞タグ付け
エンティティとイベントの抽出
極めて正確でカスタマイズ可能なエンティティ抽出、エンティティリンキング、曖昧性解消機能により、非構造化テキスト内の特定のイベントや関係を検出できます。
主な機能は次のとおりです。
- 文書内のエンティティを識別するための、統計モデルまたはディープニューラルネットワークモデル(計算言語学と人間が注釈を付けたトレーニング文書に基づく)、パターン、完全一致マッチング
- 一致の精度と、文書全体におけるエンティティの重要度を示す信頼度スコアと顕著性スコア
- ウィキデータのナレッジベースまたは内部リポジトリを使用して、文書で言及されている類似する名前を持つエンティティのアイデンティティの曖昧性解消
- 文書内の1つのエンティティへのすべてのメンションを連結する相互参照解決
- お客様がトレーニングしたイベントモデルに基づく、キーフレーズと役割(エンティティの言及)からのイベント抽出
意味によるクロスリンガル検索
Semantic Similarityを使用すると、ユーザーはキーフレーズで検索するだけで、異なる表現や別の言語で関連する結果を取得できます。その結果、最も関連性の高い情報に焦点を当てた、管理しやすい一連の結果が得られます。
主な機能は次のとおりです。
- 単語の埋め込みを使用して、ある単語の意味と別の単語の意味との概念的な距離を概算する数値表現であるベクトルに単語を変換
- 意味のあるグループ分けを使用して大規模で複雑なベクトルを圧縮し、意味のあるセマンティック比較を行いながら計算要件を削減
- 単語ベクトル間のコサイン類似度を計算して意味的類似性を測定
- 各言語のベクトル空間全体で用語とコンセプトを整列させることで、複数の言語にわたり単語をセマンティックに比較
センチメントとコンセプトを理解
Sentiment Analyzerは、オピニオンマイニング、市場調査、ブランドモニタリング、会社役員保護などの用途でポジティブまたはネガティブなセンチメントを収集します。Topic Extractorは、テキスト全体にわたるテーマを検出することで、データ分析の効率化に役立ちます。
主な機能は次のとおりです。
- ポジティブ、ネガティブ、ニュートラルなテキストを、信頼スコア付きで表現したセンチメント分析。入力にエンティティが含まれている場合、そのエンティティに関連するすべてのセンチメントが1つのメンションにグループ化されます。
- コンセプトやキーフレーズのリストを含む、テキストの最も突出したテーマの抽出。コンセプトは必ずしもテキストに表示されているとは限りませんが、キーフレーズはコンテンツ全体を代表するものです。