何かの裏付けを取りたくて自分でシェアの調査をする時があったりします。
Googleで汎用的な数値を出して、Githubのスター数、npm trendsなど、その分野に特化した数値をプラスアルファしていけばそれっぽくなったりしますが、一方で世の中の有名なランキングサイトはどうやってレーティングをしているのでしょうか。
目次
メジャーなランキングサイト
TIOBE Index
プログラミング言語の人気ランキングを掲載。コード品質計測を生業とするTIOBE社が運営。(「TIOBE」って何語?って話しですがCompanyページによると単純に「The Importance Of Being Earnest(熱心であることの重要性)」の略だそうです。今までラテン語由来の何かかと思ってた・・・)
RedMonk
同じくプログラミング言語の人気ランキングを掲載。提供はIBM。
DB-Engines Ranking
DBの人気ランキングを掲載。オーストリアのITコンサル企業「solid IT」が提供。
これらのサイトがどうやってランキングを作っているか、公開されている情報から方法を纏めました。
TIOBE Index
2019/07時点のランキング
- Java
- C
- Python
- C++
- C#
- Visual Basic .NET
- Javascript
- PHP
- Objective-C
調査方法
調査方法説明ページ から引用。
- 各種検索エンジンでの検索結果を数値化
一定の基準で選別した以下25の検索サイトでの「+”{言語名} programming”」クエリ検索結果を、100%中以下の割合で採用。
- Google.com: 7.69%
- Baidu.com: 7.38%
- Wikipedia.org: 7.08%
- Yahoo.com: 6.77%
- Csdn.net: 6.46%
- Bing.com: 6.15%
- Ebay.com: 5.85%
- Google.co.in: 5.54%
- Google.com.hk: 5.23%
- Msn.com: 4.92%
- Google.co.jp: 4.62%
- Hao123.com: 4.31%
- Google.de: 4.00%
- Google.com.br: 3.69%
- Google.ru: 3.38%
- Amazon.in: 3.08%
- Google.fr: 2.77%
- Google.it: 2.46%
- Amazon.co.uk: 2.15%
- Google.cn: 1.85%
- Google.es: 1.54%
- Iqiyi.com: 1.23%
- Google.co.uk: 0.92%
- Google.com.mx: 0.62%
- Ebay.de: 0.31%
検索でヒットした数を以下の公式に当てはめてレーティングを算出。
((hits(PL,SE1)/hits(SE1) + … + hits(PL,SEn)/hits(SEn))/n
(*)TIOBEがランキング対象とする言語はチューリング完全(計算完備)を満たすものであり、HTMLやXMLのようなマークアップ言語はプログラミング言語として見做していないとのことです。
RedMonk
2019/07時点のランキング
- JavaScript
- Java
- Python
- PHP
- C#
- C++
- CSS
- Ruby
- C
- Objective-C
調査方法
トップページから引用。
- コード(GitHub)
- ディスカッション(Stack Overflow)
の両方の牽引結果を組み合わせる。
GitHubはArchiveをデータソースとし、フォークされたリポジトリは除外する。StackOverflowは エクスプローラツールを使ってメトリクス収集する。
DB-Engine Ranking
2019/07時点のランキング
- Oracle
- MySQL
- Microsoft SQL Server
- PostgreSQL
- MongoDB
- IBM Db2
- Elastic Search
- Redis
- Microsoft Access
- Cassandra
調査方法
調査方法説明ページ から引用。
- 言及されているウェブサイトの数
- 一般的な関心数
- 技術的な議論の頻度
- 求人の数
- プロフェッショナルネットワーク内での言及数
- ソーシャルネットワークでの関連発言数
を組み合わせているとのこと。
1.言及されているウェブサイトの数
検索エンジンにはGoogle、Bing、Yandexを使い、「Oracle database」などで検索した結果出てきた記事数。
2.一般的な関心数
Google Trendsでの検索頻度数。
3.技術的な議論の頻度
Stack Overflow、DBA Stack Exchangeでの質問数、関心のあるユーザ数。
4.求人の数
Indeed、Simply Hiredでの、その技術に対する求人数。
5.プロフェッショナルネットワーク内での言及数
世界的に有名なプロフェッショナルネットワークであるLinked In、Upworkで言及されている数。
6.ソーシャルネットワークでの関連発言数
Twitterでのその技術に対するつぶやきの数。
世相を反映していることが大事
TOIBEは25サイトとはいえ検索エンジンの結果しか使っていないので、現実を掴めているかどうかは疑問符が付きます。ランキングを見ても、VBそんな使われてる?Typescriptが40位?とか普段感じている実感値と違う印象があります。検索サイトを多くすることが、イコール世相を掴むことには繋がっていなさそうです。
RedMonkはGitHubとStack Overflowをデータソースにしていて「今まさにコミットされ、議論されている実値」が基になっている為、ランキングはTOIBEよりも現実味を感じます。両サイトさまさまですね。
DB-Engines Rankingは前者二つの方法を組み合わせてプラスアルファした方法になっており、求人数が加わるだけでエビデンスとして信頼性が高くなる気がします。ESやRedisがランキング高いのも世相反映されていそうです。
調査方法を調べてみることで今まで知らなかった便利サイトやツールを知ることが出来ました。DB-Enginesの調査方法は個人でも可能なやり方ですし、シェア調査の際は既存ナレッジとして取り入れてみるのも良さそうです。