Add explicit language selection

2024-08-09 08:36:48 -07:00
parent 6262197c8d
commit d1f56ae196
2 changed files with 21 additions and 6 deletions
--- a/client/qldbtools/README.md
+++ b/client/qldbtools/README.md
@@ -122,16 +122,25 @@ A small sample of a full table:
        ./bin/mc-db-refine-info < scratch/db-info-1.csv > scratch/db-info-2.csv
        ./bin/mc-db-view-info < scratch/db-info-2.csv &
-        ./bin/mc-db-unique < scratch/db-info-2.csv > scratch/db-info-3.csv
+        ./bin/mc-db-unique cpp < scratch/db-info-2.csv > scratch/db-info-3.csv
        ./bin/mc-db-view-info < scratch/db-info-3.csv &
-        ./bin/mc-db-populate-minio -n 23 < scratch/db-info-3.csv
+        ./bin/mc-db-populate-minio -n 11 < scratch/db-info-3.csv
-        ./bin/mc-db-generate-selection -n 23 \
+        ./bin/mc-db-generate-selection -n 11 \
            scratch/vscode-selection.json \
            scratch/gh-mrva-selection.json \
            < scratch/db-info-3.csv 
   To see the full information for a selection, use `mc-rows-from-mrva-list`:
        ./bin/mc-rows-from-mrva-list scratch/gh-mrva-selection.json \
            scratch/db-info-3.csv > scratch/selection-full-info
   To check, e.g., the `language` column:
        csvcut -c language scratch/selection-full-info 
 ## Notes
   The `preview-data` plugin for VS Code has a bug; it displays `0` instead of
--- a/client/qldbtools/bin/mc-db-unique
+++ b/client/qldbtools/bin/mc-db-unique
@@ -32,9 +32,12 @@ root_logger.setLevel(logging.INFO)
 #
 parser = argparse.ArgumentParser(
    description=""" Read a table of CodeQL DB information, 
    narrow to <language>,
    group entries by (owner,name),  sort each group by
    creationTime and keep only the top (newest) element.
    """)
 parser.add_argument('language', type=str, 
                    help='The language to be analyzed.')
 args = parser.parse_args()
 #
@@ -100,8 +103,11 @@ rows = ( df3['cliVersion'].isna() |
         df3['sha'].isna() )
 df4 = df3[~rows]
 # XX: Limit to one language
 df5 = df4[df4['language'] == args.language]
 # Sort and group
-df_sorted = df4.sort_values(by=['owner', 'name', 'CID', 'creationTime'])
+df_sorted = df5.sort_values(by=['owner', 'name', 'CID', 'creationTime'])
 df_unique = df_sorted.groupby(['owner', 'name', 'CID']).first().reset_index()
 # Write output